李亚涛:如何禁止搜索引擎抓取网站内容?
大家做seo都是在千方百计的让搜索引擎抓取和收录,但是其实很多情况下我们还需要禁止搜索引擎抓取和收录
比如,公司内部测试的网站,或者内部网,或者后台登录的页面,肯定不希望被外面的人搜索到,所以要禁止搜索引擎抓取。
那禁止搜索引擎抓取后会有什么效果呢?
给大家发一张禁止搜索引擎抓取网站的搜索结果截图:
大家可以看到,描述没有被抓取到,而是有一句提示:由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述
所以禁止搜索引擎收录其实是通过robots.txt文件来控制的
百度官方对robots.txt的解释是这样的:
Robots是站点与spider沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
9月11日,百度搜索robots全新升级。升级后robots将优化对网站视频URL收录抓取情况。仅当您的网站包含不希望被视频搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
如您的网站未设置robots协议,百度搜索对网站视频URL的收录将包含视频播放页URL,及页面中的视频文件、视频周边文本等信息,搜索对已收录的短视频资源将对用户呈现为视频极速体验页。此外,综艺影视类长视频,搜索引擎仅收录页面URL。
通过上面的话我们能得到2条结论:
1、robots.txt 不要也行
2、网站有内容不想让搜索引擎收录,在robots.txt里声明
声明代码如下:
User-Agent: *
Disallow: /
这个robots.txt对seo优化其实也很重要,因为搜索引擎第一个访问的文件就是robots.txt
比如你网站新搭建了一个栏目,想快速被搜索引擎发现,那就直接把栏目链接添加到robots.txt里就可以了,下次搜索引擎爬取你的网站,肯定会发现
所以,网站地图文件一般会加在robots.txt文件里
再比如你的网站做了伪静态,那原来的动态链接就最好在robots.txt禁止收录,防止重复页面过多被搜索引擎收录,对网站排名不利。
其实robots.txt文件主要有2种功能:
1、限制抓取
2、声明网站地图
如是你不会写,可以用站长工具的robots.txt生成:
直接填入你要禁止抓取的目录和网站地图,点击生成就可以了。
本文由李亚涛于2018.9.15号原创,转载请注明出处,尊重原创,谢谢