第9章: 爬虫

2021-12-06  本文已影响0人  404Not_Found

爬虫即web机器人,能偶在无需人类干预的情况下自动进行一系列web事务的软件程序。很多机器人会从一个web站点逛到另一个web站点,获取内容,跟踪超链接。并对他们找打的数据进行处理。

web机器人示例:

1. 爬虫及爬行方式

web爬虫会递归的追踪web连接,抓取一个web上的所有连接的连接。会沿着html超链接创建网络爬行,所以称其为爬虫。

1.1 从哪儿开始: 根集

爬虫开始访问的url初始集合被重做root set 根集。


爬虫形象图.png

很明显 S 不是一个很好的root set.

通常,一个好的根基会包括:

  1. 大的流行web站点。
  2. 新创建页面列表
  3. 不经常被连接的无名页面列表
    搜索殷勤使用的爬虫,都为用户提供了向根集中提交新页面或无名页面的方式。这个根集会随时间推移而增长。是所有新爬虫的种子列表
上一篇下一篇

猜你喜欢

热点阅读