网络爬虫的分类和问题以及Robots协议

2020-05-17  本文已影响0人  Epimenides

网络爬虫的分类和问题以及Robots协议

网页爬虫的尺寸:

网络爬虫引发的问题:

网络爬虫的限制:

  1. 来源审查:判断User­Agent进行限制 :

    • 检查来访HTTP协议头的User­Agent域,只响应浏览器或友好爬虫的访问 发布公告:Robots协议
  2. 发布公告:Robots协议

    • 告知所有爬虫网站的爬取策略,要求爬虫遵守

    • Robots协议的内容简介:

      • Robots Exclusion Standard (网络爬虫排除标准 )

        1. 作用:网站告知网络爬虫哪些页面可以抓取,哪些不行

        2. 一般位置:在网站的根目录下放置robots.txt文件

          Google的robots协议

          bing的robots协议

          baidu的robots协议

        京东网站下的robots.txt文件:

        User-agent: * 
        Disallow: /?* 
        Disallow: /pop/*.html 
        Disallow: /pinpai/*.html?* 
        User-agent: EtaoSpider 
        Disallow: / 
        User-agent: HuihuiSpider 
        Disallow: / 
        User-agent: GwdangSpider 
        Disallow: / 
        User-agent: WochachaSpider 
        Disallow: /
        

        Robots协议的基本语法:

        User-agent: *                     # 注释:  
        Disallow: /?*                     *代表所有 
        Disallow: /pop/*.html            /代表根目录
        

        其中:
        User-agent 指明那些爬虫可以爬取

        Disallow则是不允许爬虫访问的资源的目录

      Robots协议的遵守方式:
      1. 自动或人工识别robots.txt,再进行内容爬取
      2. Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险
上一篇 下一篇

猜你喜欢

热点阅读