爬行工作中,我们难免会遇到网页反爬行的封锁,因此就有了爬行器的攻防,在攻防之间的两种力量不断的抗衡。下面将介绍使用爬行器来限制 ip 问题的六种方法!
办法1。IP必须是必需的,如果有条件,建议一定使用 代理IP 。在具有外网IP的机器上,部署爬行 代理服务器 。你的程序,用轮训代替代理服务器访问想要收集的网站。
益处:程序逻辑变化不大,只需要代理函数。根据对方网站屏蔽规则,您只需添加更多的代理即可。即使具体的IP被屏蔽,你也可以直接将代理服务器下线,程序逻辑不需要改变。
办法2。ADSL+脚本,监视是否关闭,然后持续地切换ip。设置查询频率限制的传统做法是调用站点提供的服务界面。
办法3。useragent伪装和轮调。使用代理ip并进行轮换。 cookies处理,有些网站对登陆用户政策稍松。
方法4。尽量模拟用户行为:UserAgent是经常更换和更换的。访问间隔时间设为长一点,访问时间设为随机数;访问页面的次序也可以随意设定。
办法5。站点封的依据一般是单位时间内特定IP的访问次数.如果只收集一个站点,则按目标站点的IP进行分组,通过控制每个IP在单位时间内发办法6。 通过压力控制爬行器抓取;可以考虑使用代理来访问目标站点。降低抓取频率,设置时间稍长,访问时间采用随机数。频繁切换用户代理(模拟浏览器访问)多页数据,随机访问,然后抓取数据。更换用户IP,这是最直接有效的办法!
641
95