现在罕见的Web反收罗战略大约有以下几种:
- 1)数据加密;
- 2)限定拜访频率;
- 3)数据以非文本情势展示;
- 4)验证码掩护;
- 5)Cookie验证;
本文次要探究一下怎样打破”限定拜访频率”:
“限定拜访频率”的原理:
办事器端步伐(比方,WAF)维护了一个客户端(IP)的拜访计数,假如客户端(IP)哀求频率凌驾阈值,哀求就会被阻拦,通常会呈现下列情况:
- 1)最罕见的:前往403或503错误。
- 2)毗连被重置。
- 3)最令人头疼的:前往有效的内容
打破办法:
- 1)利用HTTP署理。由于办事端是依据IP举行限定的,经过利用署理就可以将下载量均匀到多个IP上。必要留意的是通明署理每每是有效的,由于WAF可以检测到真实的源IP,以是要利用秘密(secret)署理。
- 2)增长哀求耽误。好比,WAF限定单IP哀求频率不克不及凌驾20次/分钟,九游会可以在两次哀求之间增长5S的耽误,如许下载频率便是12次/分钟,就不会被阻拦了。
通常九游会会将1)和2)的办法联合,如许即能避免被阻拦,又能加速收罗速率。比方,利用10个署理,每次下载增长5S耽误,一分钟的实践下载量便是:120次。
- 3)使用搜刮引擎缓存(Google,Bing,百度)。“曲线救国”战略,绕过目的办事器,从搜刮引擎的缓存举行收罗。并且缓存里的页面的布局和原页面是一样的,不必重写提取规矩。
- 4)谷歌翻译。让谷歌作为九游会的“署理”,将源言语和目的言语都设置成一样,如许从谷歌翻译后果获取的数据和原页面便是一样的(留意,HTML布局有很大变革,必要重写提取规矩)。
- 5)关于前往有效内容的状况,肯定要找到检测内容能否无效的办法,不然很难包管一切数据都是准确的。
比方,的菜单,假如收罗过快前往的菜单项目便是随机的,如下图所示:
上图是正常数据
上图是有效数据
鲲鹏数据的技能职员经过细心剖析页面源码,最初发明了纪律:正常页面的菜单项ID根本上都是一连的,而随机内容的菜单项ID是随机的。
基于这一特性九游会就能用步伐检测出前往的内容能否无效,只处置无效的数据,有效的内容举行重新收罗。