PythonAndroid知识iOS Developer

Python爬虫之robots协议

2017-05-17  本文已影响79人  六尺帐篷

网络爬虫有时候也会引发很多的问题

所以,一般部分网站会给出限制网路爬虫的协议,这就是robots协议。

robots协议的全名为Robots Exclusion Standard,网络爬虫排除标准
作用:
网站告知网络爬虫哪些页面可以抓取,哪些不行
形式:
在网站根目录下的robots.txt文件

案例

image.png image.png

意思就是
对于所有的user-agent:
不可以访问一下url
Disallow: /?*
Disallow: /pop/.html
Disallow: /pinpai/
.html?*
对于其他几个user-agent是禁止爬虫的,我们看一下就是一淘这些淘宝的搜索引擎,也难怪京东和淘宝哈哈哈

实际中如何遵守robots协议

image.png
上一篇 下一篇

猜你喜欢

热点阅读