我想知道的一件事是robots.txt
文件的语法、它的放置位置以及它的使用方式。我知道它用于阻止蜘蛛访问您的网站,但仅此而已。我最近不得不调查它,因为我们在工作中提供免费会员资格,我们不希望它们被搜索引擎编入索引。我还想知道我们如何从这些引擎中排除某些区域,例如我们整理网站统计信息的地方。
事实证明,这真的非常简单。只需在您的html根目录中创建一个robots.txt
文件,语法如下:
User-agent: * Disallow: /path/ Disallow: /path/to/file
User-agent
可以指定特定的代理或通配符;那里有很多蜘蛛,简单地禁止所有蜘蛛可能是最安全的。Disallow
行应该只有一个路径或名称,但您可以有多个Disallow
行,因此您可以排除任意数量的路径或文件。