robots.txt Meta 标签用法及优化
Robots META 标签,是针对某一个网页具体页面的访问规则。和其他的 META 标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的中,专门用来告诉搜索引擎 ROBOTS 如何抓取该页的内容。
Robots META标签的写法:
Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。
INDEX -指令告诉搜索机器人抓取该页面;
FOLLOW -指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
NOINDEX -指令告诉搜索机器人不索引当前页面
NOFOLLOW -不跟踪当前页面中所有的链接
NOARCHIVE -在搜索结果中不保存当前页面的快照
NOSNIPPET – 在搜索结果中不采用当前页面的头部描述信息,且不保存当前页面的快照
NOODP -搜索结果中不使用DMOZ中的描述信息,Yahoo、MSN也支持此类标签
NONE -不索引当前页面以及其中的所有链接,跟“NOINDEX, NOFOLLOW” 含义相同
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。
这样,一共有四种组合:
<meta name=”Robots ” content=”index,follow”>
<meta name=”Robots ” content=”noindex,follow”>
<meta name=”Robots ” content=”index,nofollow”>
<meta name=”Robots ” content=”noindex,nofollow”>
其中 <meta name=”Robots ” content=”index,follow”>
可以写成<meta name=”Robots ” content=”ALL”>
<meta name=”Robots ” content=”noindex,nofollow”>
可以写成<meta name=”Robots ” content=”None”>
目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎 Google 就完全支持,而且 Google 还增加了一个指令“archive”,可以限制 Google 是否保留网页快照。例如:
<meta NAME=”googlebot” content=”index,follow,noarchive”>
表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。
推荐阅读:
STAR.zi – robots.txt 用法及优化运用
点石互动 – Robots Meta标签及其用法
Google 黑板报 – 如何使用robots.txt
谷歌中文网站管理员博客 – 文件robots.txt的新增特性及REP meta标签
Google网站管理员支持中心 – 如何使用 robots.txt 文件控制对网站的访问?