第9章: 爬虫
2021-12-06 本文已影响0人
404Not_Found
- 作者: 雪山肥鱼
- 时间:20211206 23:24
- 目的: 简单了解爬虫
爬虫即web机器人,能偶在无需人类干预的情况下自动进行一系列web事务的软件程序。很多机器人会从一个web站点逛到另一个web站点,获取内容,跟踪超链接。并对他们找打的数据进行处理。
web机器人示例:
- 股票图形机器人每隔几分钟就会向股票市场的服务器发送http get, 用得到的数据来构建股市价格趋势图
- web统计机器人会收集与网络有关的统计信息,他们会在web上游荡,统计页面数量,记录每隔页面大小。
- 搜索殷勤机器人会收集他们所找到的所有文档,以创建搜索数据库
- 比较购物机器人会从在线商店的目录中收集web页面,以构建商品,机器价格数据库
1. 爬虫及爬行方式
web爬虫会递归的追踪web连接,抓取一个web上的所有连接的连接。会沿着html超链接创建网络爬行,所以称其为爬虫。
- 搜索引擎
搜索引擎使用爬虫在web上游荡,并把他们碰到的文档全部拉回来。然后对这些文档进行处理,形成一个可搜索的数据库。以便用户查找包含了特定单词的文档。
网上有数以万计的web 页面需要查找和取回,这些爬虫必然是最复杂的机器人。
1.1 从哪儿开始: 根集
爬虫开始访问的url初始集合被重做root set 根集。
爬虫形象图.png
很明显 S 不是一个很好的root set.
通常,一个好的根基会包括:
- 大的流行web站点。
- 新创建页面列表
- 不经常被连接的无名页面列表
搜索殷勤使用的爬虫,都为用户提供了向根集中提交新页面或无名页面的方式。这个根集会随时间推移而增长。是所有新爬虫的种子列表