为什么爬行器使用 代理服务器 ip 后仍然遇到问题?许多朋友在使用高质量稳定的代理服务器ip,控制访问速度和次数,设置了UserAgent,Referer等一系列方法后,发现爬虫还是会遇到各种不好的情况,导致爬虫的工作总是不那么顺利,无法高效地爬取大量数据,按时完成每天的工作任务,问题出在哪里,有什么好的解决方法?
各站点的反扒策略不同,因此需要具体问题具体分析。但是一些基本的操作还是可以做的,如下所示:
首先,使用高质量的代理服务器ip;其次,设置好header信息,不只是UserAgent和Referer,还有许多其他header值,可以在浏览器中打开开发者模式(按F12),查看网站;
再次,像上图所示的处理Cookie,将Cookies信息保存起来,然后在下一次请求时带上它;
如果通过header和cookie无法获取数据,可以考虑使用PhantomJS模拟浏览器采集,这是一种常用技术。按照上面的四个步骤,数据基本就爬不到了。
704
109