在抓取信息的过程中,如果抓取频率高于网站设置的阈值,则会得到503或403条响应,禁止访问。通常,网站的反爬虫机制是基于 IP 来识别爬虫。
所以爬虫开发者通常需要采取两种措施来解决这个问题:
1。降低爬行速度,降低目标网站的压力。但这将减少每个单位时间类的抓取量。
2。第二种方法是通过设置 代理IP ,突破反爬虫机制,继续进行高频爬行。但这需要多个稳定的代理IP。
代理IP可以免费搜索,但可能不稳定,有费用,但可能不划算,也可能不是一个长期的解决方案。
基于ADSL的通用拨号解决方案通常情况下,当爬行过程中禁止访问时,可以恢复ADSL拨号以获得新的IP,从而继续爬行。但是,当多站点多线程爬行时,如果禁止一个网站的爬行,也会影响其他网站的爬行,整体的爬行速度也会降低。
用不同的代理IP替换每个请求
639
137
下一篇:IP地址分类介绍-神鸡代理