85.http权威指南-第9章-爬虫

2022-04-04  本文已影响0人  wo不是黄蓉

爬虫也被称为蜘蛛:是一种机器人,它会递归地对各种信息性web站点进行遍历,根据html连接创建的网络。网络搜索就是利用爬虫,把所有文档都拉回来,然后对这些文档进行处理,形成一个可搜索的数据库。

爬虫要避免进入循环。

避免循环和重复的方式:

记录爬虫访问地址的几种方式:

上一篇 下一篇

猜你喜欢

热点阅读