网络爬虫

2019年9月26日 13:11

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。抓取目标分类：抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。基于目标网页特征基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为：（1）预先给定的初始抓取种子样本；（2）预先给定的网页分类目录和与分类目录对应的种子样本，如Yahoo!分类结构等；（3）通过用户行为确定的抓取目标样例，分为： (a) 用户浏览过程中显示标注的抓取样本； (b) 通过用户日志挖掘得到访问模式及相关样本。其中，网页特征可以是网页的内容特征，也可以是网页的链接结构特征，等等。基于目标数据模式基于目标数据模式的爬虫针对的是网页上的数据，所抓取的数据一般要符合一定的模式，或者可以转化或映射为目标数据模式。基于领域概念另一种描述方式是建立目标领域的本体或词典，用于从语义角度分析不同特征在某一主题中的重要程度。

1026 118

上一篇：网关代理

下一篇：虚拟IP

进入DNS 什么是应用虚拟化？ http代理商早已越来越广泛免费ip代理手机软件,确保消费者的上网安全什么是使用透明代理-神鸡代理武汉猎鹰网安科技有限公司：构建数字时代的安全屏障 ip代理服务器和云连N的差别武汉猎鹰网安科技有限公司引领网络安全新趋势收费代理IP有什么好处呢？ ip代理服务器和提取代理ip及代理ip登陆不了

旗下产品

软件IP代理企业HTTP代理开放HTTP代理高速硬件IP代理

相关文章

旗下产品

相关介绍