网站优化之robots文件作用及标准格式书写规范

我们在构建网站之后,许多做网站系统根目录下,都有一个robots.txt协议文件。这个文件关系到网站优化的诸多方面,要怎么重视robots.txt文件写法,需要掌握哪些技巧?

robots.txt协议文件作用

各大搜索引擎蜘蛛当访问网站时,率先访问的首个文件是robots.txt。它告诉搜索引擎蜘蛛可以抓取哪些网站页面以及哪些网站页面被阻止。从表面上看,此功能的效果有限。从搜索引擎优化的角度来看,您可以通过阻止某些页面来实现集中权重的作用,这是细节是网站优化管理员非常重视。因此网站robots.txt文件主要目的是设置访问权限以保护网站安全,禁止搜索引擎抓取无效页面并将权重集中在主页面上。

robots.txt标准书写规范方式

通过以下三条命令,您可以组合多种书写方式,允许或禁止搜索引擎访问哪个页面。
User-agent命令指定什么搜索引擎,示例:User-agent:Baiduspider,这个意思是指定百度蜘蛛。
Disallow禁止意味着禁止访问。
Allow允许表示运行访问权限
示例:禁止所有搜索引擎抓取:
User-agent: *
Disallow: /
禁止百度蜘蛛抓取:
User-agent: baiduspider
Disallow: /
允许百度抓取,禁止谷歌抓取:
User-agent: *
Allow: /
User-agent: baiduspider
Allow: /
User-agent: Googlebot
Disallow: /

注意:机器人的所有属性后面都必须有空格。 例如:允许:xxx,冒号后面必须有空格(半角下的空格)
robots通配符使用:
robots支持使用通配符"*"和"$"来模糊匹配url。
"$" 匹配行结束符。
"*" 匹配多个任意字符。


robots.txt文件格式标准

此文件需要放在网站的根目录中,并且字母的大小有限制。文件名必须为小写。所有命令的第一个字母必须大写,其余的小写。命令后必须有一个英文空格字符。

robots.txt主要应用在:网站没用页面;大多数网站都有联系我们,用户协议和其他页面,这些页面与搜索引擎优化相比并不是很有用,在这种情况下需要使用Disallow命令来禁止这些页面被搜索引擎抓取。网站管理后台;网站后台也可以归类为无用页面,完全禁止一切页面收录。动态页面;企业类型站点阻止动态页面,这有利于网站安全。访问同一页面的多个URL将导致权重分散。因此,通常阻止动态页面抓取,留下静态或伪静态页面。

转载请注明来源链接: http://www.wze8.com/wenku/yunwei-robots.html

上一篇:本分类首篇文章