robots.txt 用法及优化运用
robots.txt 自身是一个文本文件。它必须位于域名的根目录中并被命名为”robots.txt”,而且文件名必须全部小写。位于子目录中的 robots.txt 文件无效,因为搜索引擎蜘蛛只在域名的根目录中查找此文件。例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/site/robots.txt 则不是。
当一个搜索引擎爬行机器人 (robot) 或称蜘蛛程序 (spider) 访问一个站点时,它首先会检查该站点根目录下是否存在 robots.txt 文件,如果存在,搜索引擎蜘蛛就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索引擎蜘蛛就沿着网站的链接抓取。
下面是一些 robots.txt 的具体用法:
允许所有的 robot 访问
User-agent: *
Disallow:
或者也可以建立一个空的 “/robots.txt” 文件, 或者不使用 robot.txt 。
禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
只允许某个 robot 的访问,例如只允许 Google 的搜索引擎蜘蛛爬行机器人抓取
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
禁止所有 robot 抓取网站的某些目录,例如禁止爬行机器人抓取 wp-admin 文件目录与 wp-includes 文件目录.
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
禁止某个爬行机器人的抓取,例如阻止 Google 的爬行机器人抓取
User-agent: Googlebot
Disallow: /
禁止 Googlebot 抓取特定文件类型(例如,.gif)的所有文件
User-agent: Googlebot
Disallow: /*.gif$
禁止 Googlebot 抓取所有包含 ? 的网址(具体地说,这种网址以您的域名开头,后接任意字符串,然后是问号,而后又是任意字符串),可使用以下写法:
User-agent: Googlebot
Disallow: /*?
还有目前各大搜索引擎都发布了对网站地图的新的支持方式,就是在robots.txt文件里直接包括sitemap文件的链接。
就像这样:
Sitemap: http://www.example.com/sitemap.xml
目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。
还有 Google Groups 成员指出包括Google在内的大部分常用搜索引擎更宠爱UTF-8编码的 robots.txt 文件.