robots.txt?协议

顺晟科技

2020-10-17 22:30:30

178

1. 什么是robots.txt?

　　robots.txt 是网站和搜索引擎的协议的纯文本文件。当一个搜索引擎蜘蛛来访问站点时，它首先爬行来检查该站点根目录下是否存在robots.txt，如果存在，根据文件内容来确定访问范围，如果没有，蜘蛛就沿着链接抓取。robots.txt 放在项目的根目录下。

2. robots.txt语法

1) 允许所有搜索引擎访问网站的所有部分

robots.txt写法如下：

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

注意： 1. 第一个英文要大写，冒号是英文状态下，冒号后面有一个空格，这几点一定不能写错。

2) 禁止所有搜索引擎访问网站的所有部分

robots.txt写法如下：

User-agent: *

Disallow: /

3) 只需要禁止蜘蛛访问某个目录，比如禁止admin、css、images等目录被索引

robots.txt写法如下：

User-agent: *

Disallow: /css/

Disallow: /admin/

Disallow: /images/

注意：路径后面有斜杠和没有斜杠的区别：比如Disallow: /images/ 有斜杠是禁止抓取images整个文件夹，Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽

4）屏蔽一个文件夹/templets，但是又能抓取其中一个文件的写法:/templets/main

robots.txt写法如下：

User-agent: *

Disallow: /templets

Allow: /main

5) 禁止访问html/目录下的所有以”.php”为后缀的URL(包含子目录)

robots.txt写法如下：

User-agent: *

Disallow: html/*.php

6) 仅允许访问某目录下某个后缀的文件,则使用“$”

robots.txt写法如下：

User-agent: *

Allow: .html$

Disallow: /

7）禁止索引网站中所有的动态页面

比如这里限制的是有“?”的域名，例如index.php?id=1

robots.txt写法如下：

User-agent: *

Disallow: /*?*

8) 禁止搜索引擎抓取我们网站上的所有图片(如果你的网站使用其他后缀的图片名称，在这里也可以直接添加)

有些时候，我们为了节省服务器资源，需要禁止各类搜索引擎来索引我们网站上的图片，这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外，还可以采取直接屏蔽图片后缀名的方式。

robots.txt写法如下：

User-agent: *

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

写robots.txt要注意的地方

1. 第一个英文要大写，冒号是英文状态下，冒号后面有一个空格，这几点一定不能写错。

　　2. 斜杠：/ 代表整个网站

　　3.如果“/”后面多了一个空格，则屏蔽整个网站

　　4.不要禁止正常的内容

　　5.生效时间是几天到两个月

上一篇：404错误页面的设置方法详解下一篇：伪静态

网站建设

Seo

robots.txt?协议