网站防爬虫文件robots.txt

2022-11-07 本文已影响0人你这个锤子

robots.txt 文件说明

robots.txt 是网站和搜索引擎的协议的纯文本文件。当一个搜索引擎蜘蛛来访问站点时，它首先爬行来检查该站点根目录下是否存在robots.txt，如果存在，根据文件内容来确定访问范围，如果没有，蜘蛛就沿着链接抓取。robots.txt 放在项目的根目录下。

robots.txt 语法

禁止某个SE（搜索引擎）收录本站，例如禁止百度：

User-agent: Baiduspider // 谷歌是``Googlebot``
Disallow: /

允许所有搜索引擎访问网站的所有部分

User-agent:  *
Disallow:
// 或者
User-agent:  *
Allow:  /
// 注意： 1. 第一个英文要大写，冒号是英文状态下，冒号后面有一个空格，这几点一定不能写错。

禁止所有搜索引擎访问网站的所有部分

User-agent:  *
Disallow:  /

只需要禁止蜘蛛访问某个目录，比如禁止admin、css、images等目录被索引

User-agent:  *
Disallow:  /css/
Disallow:  /admin/
Disallow:  /images/
// 注意：路径后面有斜杠和没有斜杠的区别：比如Disallow: /images/ 有斜杠是禁止抓取images整个文件夹，Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽

屏蔽一个文件夹/templets，但是又能抓取其中一个文件的写法:/templets/main

User-agent:   *
Disallow:  /templets
Allow:  /main

禁止访问/html/目录下的所有以”.php”为后缀的URL(包含子目录)

User-agent:  *
Disallow:  /html/*.php

仅允许访问某目录下某个后缀的文件,则使用“$”

User-agent:  *
Allow:  .html$
Disallow:  /

禁止索引网站中所有的动态页面，比如这里限制的是有“?”的域名，例如index.php?id=1

User-agent:  *
Disallow:  /*?*

禁止搜索引擎抓取我们网站上的所有图片(有些时候，我们为了节省服务器资源，需要禁止各类搜索引擎来索引我们网站上的图片，这里的办法除了使用Disallow: /images/这样的直接屏蔽文件夹的方式之外，还可以采取直接屏蔽图片后缀名的方式。)

User-agent: *
Disallow:  .jpg$
Disallow:  .jpeg$
Disallow:  .gif$
Disallow:  .png$
Disallow:  .bmp$

注意事项

第一个英文要大写，冒号是英文状态下，冒号后面有一个空格，这几点一定不能写错。
斜杠：/ 代表整个网站
如果“/”后面多了一个空格，则屏蔽整个网站
不要禁止正常的内容
生效时间是几天到两个月

例子

vue项目中实际使用(需要放在根目录下)
/robots.txt

User-agent: *
Disallow: /

使用/robots.txt的说明：

机器人可以忽略你的/robots.txt。尤其是扫描网络中的安全漏洞的恶意软件机器人，以及垃圾邮件发送者使用的收件人的电子邮件地址将不予理睬。
/robots.txt文件是公开可用的文件。任何人都可以看到你不想让机器人使用你的服务器的哪些部分是。

上一篇下一篇

猜你喜欢

热点阅读