Py爬虫2:分类及robots协议

2022-07-11  本文已影响0人  _百草_

1、概述

爬虫,即网页爬虫,网页蜘蛛、网络机器人、网络蚂蚁
-搜索引擎,网络爬虫的应用
爬取特定网站、特定类别的数据
爬虫是数据的获取;但后期数据处理、数据存储……
向网站发起请求,获取资源后分析提取有用数据的程序


2、爬虫分类

爬虫2大类

3、robots协议

君子协议


robots协议

python 爬虫框架

主要分为5部分,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)

上一篇 下一篇

猜你喜欢

热点阅读