第9章: 爬虫

2021-12-06 本文已影响0人 404Not_Found

作者: 雪山肥鱼
时间：20211206 23:24
目的: 简单了解爬虫

爬虫即web机器人，能偶在无需人类干预的情况下自动进行一系列web事务的软件程序。很多机器人会从一个web站点逛到另一个web站点，获取内容，跟踪超链接。并对他们找打的数据进行处理。

web机器人示例：

股票图形机器人每隔几分钟就会向股票市场的服务器发送http get, 用得到的数据来构建股市价格趋势图
web统计机器人会收集与网络有关的统计信息，他们会在web上游荡，统计页面数量，记录每隔页面大小。
搜索殷勤机器人会收集他们所找到的所有文档，以创建搜索数据库
比较购物机器人会从在线商店的目录中收集web页面，以构建商品，机器价格数据库

1. 爬虫及爬行方式

web爬虫会递归的追踪web连接，抓取一个web上的所有连接的连接。会沿着html超链接创建网络爬行，所以称其为爬虫。

搜索引擎
搜索引擎使用爬虫在web上游荡，并把他们碰到的文档全部拉回来。然后对这些文档进行处理，形成一个可搜索的数据库。以便用户查找包含了特定单词的文档。
网上有数以万计的web 页面需要查找和取回，这些爬虫必然是最复杂的机器人。

1.1 从哪儿开始: 根集

爬虫开始访问的url初始集合被重做root set 根集。

爬虫形象图.png

很明显 S 不是一个很好的root set.

通常，一个好的根基会包括：

大的流行web站点。
新创建页面列表
不经常被连接的无名页面列表
搜索殷勤使用的爬虫，都为用户提供了向根集中提交新页面或无名页面的方式。这个根集会随时间推移而增长。是所有新爬虫的种子列表

上一篇下一篇

猜你喜欢

热点阅读