SEO优化：robots.txt协议文件相关

2020-05-27 本文已影响0人 xinyiyake

用于指令搜索引擎禁止抓取网站某些内容或者指定抓取网站某些内容的。只有需要在禁止抓取某些内容时，robots.txt文件才有意义。robots.txt不存在或者是一个空文件意味着允许抓取网站上的所有内容。

格式：<域>:<可选空格><域值><可选空格>

注意：记录之间应以空行分开。

注意：允许或禁止的目录或文件必须分开写，每个一行

a. 禁止所有搜索引擎抓取任何页面
User-agent: *
Disallow: /

b. 允许所有的搜索引擎访问网站的任何部分
User-agent: *
Disallow:

c. 仅禁止Googlebot访问您的网站
User-agent: Googlebot
Disallow: /
也可换为其他搜索引擎

d. 仅允许Googlebot访问您的网站
User-agent: Googlebot
Disallow:
也可换为其他搜索引擎

e. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
注意事项：1)目录要分别写。2)请注意最后要带斜杠。3)带斜杠与不带斜杠的区别。

f. 允许访问特定目录中的部分url：如：不抓取/ab/目录下的其他目录和文件，但允许抓取其中/cd/目录下的内容
User-agent: *
Disallow: /ab/
Allow: /ab/cd/
注：允许收录优先级要高于禁止收录。

g. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /?

h. 禁止搜索引擎抓取网站上所有图片
User-agent: *
Disallow: /.jpg $Disallow: /*.jpeg$
Disallow: /.gif $Disallow: /*.png$
Disallow: /*.bmp$

i. 允许抓取以.htm为后缀的URL
User-agent: *
Allow: .htm$

j. 禁止抓取所有htm文件
User-agent: *
Disallow: /*.htm

被robots文件禁止抓取的URL还是可能被索引并出现在搜索结果中。只要有导入链接指向这个URL,就会被搜索引擎搜索引擎识别出来有这个URL的存在，虽然不会抓取页面内容，但是索引库中会有这个URL的页面信息存在。通常以下面四种情况呈现出来。

（1）只显示URL,没有标题和描述
（2）显示开放目录或雅虎等重要目录收录的标题和描述
（3）导入链接的锚文字显示为标题和描述
（4）搜索引擎从其他地方获得的信息显示为标题和描述