robots.txt文件是搜索引擎蜘蛛访问网站时最先查看的文件。简单来说,它可以告诉搜索引擎蜘蛛,网站上的哪些页面可以被索引,哪些不允许被索引。如果站点存在robots.txt文件,那么搜索引擎蜘蛛就会按照该文件中的内容来确定访问的范围;如果不存在robots.txt文件,那么搜索引擎蜘蛛将自行访问网站上的所有页面。

robots.txt文件必须放置在站点的根目录下,而且文件名必须全部小写。大多数的robots.txt文件通常使用User-Agent:和Disallow:这两条规则,前者代表“适用下列规则的漫游器”,后者代表“要拦截的目标”。有的robots.txt文件中还有Allow:规则,代表“可以访问的目标”。

如果站点允许搜索引擎蜘蛛全部索引,那么可以不设置robots.txt文件;一旦设立,就必须要包含一个Disallow规则。有几个被禁止的目标,就写几个Disallow规则,每行一个;如果一个被禁止的目标都没有,那么直接在Disallow:后面留空即可。

作者:Mr.Chen
SEM99(www.sem99.com) - 广州SEO公司第一品牌
本文SEM99版权所有,转载请标明出处,否则将追究法律责任。