Robots协议

2017-04-18  本文已影响0人  天道酬勤_FUN

Robots Exclusion Standard 网络爬虫排除标准

作用:网站告知网络爬虫哪些页面可以抓取,哪些不行。
形式:在网站根目录下的robots.txt文件。

案例

京东的Robots协议
百度的Robots协议
新浪新闻的Robots协议
qq的Robots协议
qq新闻的Robots协议
国家教育部的Robots协议(无robots协议)

Robots协议基本语法

# 注释:*代表所有,/代表根目录
User-agent: *
Disallow: /

Robots的遵守方式

Robots协议的使用

网络爬虫:自动或人工识别robots.txt,再进行内容爬取。
约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,

上一篇下一篇

猜你喜欢

热点阅读