robot.txt文件解读

2017-04-29  本文已影响0人  Sol_elY

CSDN:blog.csdn.net/robots.txt

CSDN对所有爬虫都不允许爬取整个scripts目录,整个public目录,以及css、images、content、ui、js、scripts目录下的子目录;


爱奇艺:www.iqiyi.com/robots.txt 

爱奇艺对所有爬虫都不允许爬取包含?的所有网址以及lib目录下的pps\iqy\pstyle\lstyle\mac等五个目录下的所以子目录;

简书:www.jianshu.com/robots.txt

简书对所有爬虫都不允许爬取整个search目录,以及notes目录下的子目录,admin下的子目录,p目录下的0826cf4692f9、d8b31d20a867两个目录collections
目录下的所有包含recommended_authors目录的所有目录;

目前,信息技术发展越来越快,每个人在每一天都会产生大量的数据,这使得人们对于网络信息安全越来越关注。没有人想要活在一个完全透明的社会中,robots协议明示了搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许,这保障了人们的隐私安全,它使得我们能够放心的使用网络。

上一篇下一篇

猜你喜欢

热点阅读