网站防爬虫文件robots.txt

2022-11-07  本文已影响0人  你这个锤子

robots.txt 文件说明

robots.txt 是网站和搜索引擎的协议的纯文本文件。当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robots.txt,如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。robots.txt 放在项目的根目录下。

robots.txt 语法

User-agent: Baiduspider // 谷歌是``Googlebot``
Disallow: /
User-agent:  *
Disallow:
// 或者
User-agent:  *
Allow:  /
// 注意: 1. 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。
User-agent:  *
Disallow:  /
User-agent:  *
Disallow:  /css/
Disallow:  /admin/
Disallow:  /images/
// 注意:路径后面有斜杠和没有斜杠的区别:比如Disallow: /images/ 有斜杠是禁止抓取images整个文件夹,Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽
User-agent:   *
Disallow:  /templets
Allow:  /main
User-agent:  *
Disallow:  /html/*.php
User-agent:  *
Allow:  .html$
Disallow:  /
User-agent:  *
Disallow:  /*?*
User-agent: *
Disallow:  .jpg$
Disallow:  .jpeg$
Disallow:  .gif$
Disallow:  .png$
Disallow:  .bmp$

注意事项

例子

vue项目中实际使用(需要放在根目录下)
/robots.txt

User-agent: *
Disallow: /

使用/robots.txt的说明:

原文链接

上一篇下一篇

猜你喜欢

热点阅读