1. 判断headers 中的参数,比如user-agent 不是浏览器的不允许访问;refer 不是来源于特定域名的也不行(反盗链常用技术)。这是最常见的反爬虫技术。
2. cookies 检查用户cookies,需要登录的网站常采用这种技术。比如论坛、微博、雪球等。
以上两个可以通过手动设计headers 和cookies 搞定,python 程序员使用requests 可以很方便解决。
765
208
上一篇:python爬虫使用高度匿名代理IP。为什么它会在爬虫速度更快时阻止本机IP?
下一篇:代理ip能否用于淘宝、京东刷单?