1.先要选定一小部分精心挑选的种子URL。
2.将那些URL放进待爬取URL队列。
3.从待爬取URL队列中取出待抓取在URL,解析DNS,然后获得主机的 ip ,并将URL相匹配的网页下载下来,存储进已下载网页库中。除此之外,将那些URL放进已爬取URL队列。
4.深入分析已抓取URL队列中的URL,分析其中的其他URL,然后将URL放入待抓取URL队列,于是进入下一个循环。
用到爬虫爬取数据,相同IP经常使用,必定会造成IP受限,因此在做
网络爬虫
之前,记得运用安全稳定的
代理ip
来解决。
1348
135
下一篇:Java爬虫方式:Watij