网络爬虫的分类和问题以及Robots协议

2020-05-17 本文已影响0人 Epimenides

网络爬虫的分类和问题以及Robots协议

网页爬虫的尺寸:

爬取网页，玩转网页：小规模，数据量小，爬取速度不敏感。(Request库足够)
爬取网站爬取系列网站：中规模，数据量较大，爬取速度敏。（Scrapy库）
爬取全网：大规模，搜索引擎，爬取速度关键；定制开发(如Google,百度,Bing这一类搜索引擎)

网络爬虫引发的问题：

网络爬虫的骚扰：受限于编写水平和目的，网络爬虫将会为Web服务器带来巨大的资源开销
网络爬虫的法律风险：服务器上的数据有产权归属，网络爬虫获取数据后牟利将带来法律风险
网络爬虫泄露隐私：网络爬虫可能具备突破简单访问控制的能力，获得被保护数据从而泄露个人隐私

网络爬虫的限制:

来源审查：判断UserAgent进行限制 :
- 检查来访HTTP协议头的UserAgent域，只响应浏览器或友好爬虫的访问发布公告：Robots协议
发布公告：Robots协议
- 告知所有爬虫网站的爬取策略，要求爬虫遵守
- Robots协议的内容简介：
  - Robots Exclusion Standard （网络爬虫排除标准）
    1. 作用：网站告知网络爬虫哪些页面可以抓取，哪些不行
    2. 一般位置：在网站的根目录下放置robots.txt文件
      
      Google的robots协议
      
      bing的robots协议
      
      baidu的robots协议
    京东网站下的robots.txt文件:
```
User-agent: * 
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /
```
    Robots协议的基本语法:
```
User-agent: *                     # 注释：  
Disallow: /?*                     *代表所有 
Disallow: /pop/*.html            /代表根目录
```
    其中：
    User-agent 指明那些爬虫可以爬取
    
    Disallow则是不允许爬虫访问的资源的目录
  Robots协议的遵守方式:
  1. 自动或人工识别robots.txt，再进行内容爬取
  2. Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险

上一篇下一篇

猜你喜欢

热点阅读