Robots.txt 怎么写?这是许多SEO新手经常会遇到的问题。
robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt可以告诉搜索引擎您的网站哪些页面可以被收录,哪些页面不可以被收录,如果您不想让搜索引擎收录您网站的某些内容,请用robots.txt文件指定搜索引擎在您网站上的抓取范围。
也许有朋友说,我巴不得搜索引擎多爬些呢,还禁用?事实上,有些站长并不希望网站的一些页面被抓取到,因为它们出现在搜索结果里对用户可能是没多大意义的;有些站长并不希望某一类型的网页被抓取到,因为它们是一些内容重复的网页,有些站长不希望特定的网页被抓取到,因为它是敏感或者机密的内容......
Robots.txt文件放在哪儿?
robots.txt应该放置在网站根目录下。举例来说,当spider访问一个网站(比如 http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
Robots.txt 怎么写
下面是一个WordPress博客的常见的Robots.txt的写法:
User-agent: * # Disallow all directories and files within(禁止抓取以下目录中的文件) Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ # Disallow all files ending with these extensions(禁止抓取以下后缀名的文件) Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ # Disallow parsing individual post feeds, categories and trackbacks..(禁止抓取Feeds,文章目录页面和trackbacks) Disallow: */trackback/ Disallow: */feed/ Disallow: /category/*
Robots.txt 怎么写检测工具
robots.txt协议并不是一个规范,而只是约定俗成的,所以,每个搜索引擎遵守robots.txt的方式也不一样,在你修改robots.txt文件时,可以使用以下工具检测一下是否符合规范。
Google网站管理员工具:https://www.google.com/webmasters/tools/
百度站长工具:http://zhanzhang.baidu.com/dashboard/index
Robots检测工具:http://tool.seowhy.com/robot/
我们可以看看一个robots.txt文件的检测结果,从中你也会学会Robots.txt 怎么写了。
原载: 蜗牛博客
网址: http://www.snailtoday.com/
版权所有。转载时必须以链接形式注明作者和原始出处及本声明。