Robots.Txt：什么是 Robots.Txt 以及为什么它对 SEO 很重要

什么是Robots.txt？

robots.txt 文件是网站使用的一组指令，用于告诉搜索引擎哪些页面应该被抓取，哪些页面不应该被抓取。Robots.txt 文件指导抓取工具访问，但不应用于将网页排除在 Google 索引之外。

robots.txt 文件如下所示：

Robots.txt 文件可能看起来很复杂，但语法（计算机语言）很简单。我们稍后会详细讨论这些细节。

为什么 Robots.txt 很重要？

robots.txt 文件有助于管理网络爬虫活动，这样它们就不会过度使用您的网站或不适合公众查看的索引页面。

以下是使用 robots.txt 文件的几个原因：

1.优化抓取预算

抓取预算是指 Google 在给定时间范围内在您的网站上抓取的页面数量。

该数量可能会根据您网站的大小、运行状况和backlinks数量而有所不同。

如果您网站的页面数量超出了网站的抓取预算，则您的网站上可能存在未编入索引的页面。

未索引的页面不会排名，最终，您将浪费时间创建用户看不到的页面。

使用 robots.txt 阻止不必要的页面可以让 Googlebot（Google 的网络抓取工具）在重要的页面上花费更多的抓取预算。

Notice：根据 Google 的说法，大多数网站所有者无需过多担心抓取预算。这主要是拥有数千个 URL 的大型网站所关心的问题。

2. 阻止重复和非公开页面

抓取机器人不需要筛选网站上的每个页面。因为并非所有这些内容都是为了在搜索引擎结果页面 (SERP) 中提供服务而创建的。

例如临时站点、内部搜索结果页面、重复页面或登录页面。

某些内容管理系统会为您处理这些内部页面。

For example，WordPress 会自动禁止所有爬虫访问登录页面 /wp-admin/。

Robots.txt 允许您阻止爬虫抓取这些页面。

3.隐藏资源

有时您希望从搜索结果中排除 PDF、视频和图像等资源。

保持其私密性或让 Google 专注于更重要的内容。

无论哪种情况，robots.txt 都会阻止它们被抓取（并因此被编入索引）。

技术 robots.txt 语法

Robots.txt 语法可以被认为是 robots.txt 文件的“语言”。您可能会在 robots 文件中遇到五个常见术语。他们包括：

用户代理：您向其发出爬网指令的特定网络爬网程序（通常是搜索引擎）。大多数用户代理的列表可以在此处找到。
Disallow：用于告诉用户代理不要抓取特定 URL 的命令。每个 URL 只允许有一行“Disallow:”。
允许（仅适用于 Googlebot）：该命令告诉 Googlebot 它可以访问某个页面或子文件夹，即使其父页面或子文件夹可能被禁止。
抓取延迟：爬虫在加载和抓取页面内容之前应等待多少秒。Please note，Googlebot 不接受此命令，but可以在 Google Search Console 中设置抓取速度。
sitemap：用于调出与此 URL 关联的任何 XML 站点地图的位置。Please note，仅Google、Ask、Bing 和 Yahoo支持此命令。

如何创建 Robots.txt 文件

userobots.txt 生成器工具或自己创建一个。

就是这样：

1. 创建一个文件并将其命名为Robots.txt

首先在文本编辑器或 Web 浏览器中打开 .txt 文档。

Notice：不要使用文字处理器，因为它们通常以可以添加随机字符的专有格式保存文件。

Next，将文档命名为 robots.txt。

现在您已准备好开始输入指令。

2. 将指令添加到 Robots.txt 文件

robots.txt 文件由一组或多组指令组成，每组指令由多行指令组成。

每个组都以“用户代理”开头，并具有以下信息：

该组适用于谁（用户代理）
代理可以访问哪些目录（页面）或文件
代理无法访问哪些目录（页面）或文件
站点地图（可选）告诉搜索引擎您认为重要的页面和文件

爬网程序会忽略与这些指令不匹配的行。

For example，假设您不希望 Google 抓取您的 /clients/ 目录，因为它仅供内部使用。

第一组看起来像这样：

User-agent: Googlebot Disallow: /clients/

可以在下面的单独行中添加其他说明，As follows：

User-agent: Googlebot Disallow: /clients/ Disallow: /not-for-google

完成 Google 的具体说明后，请按两次 Enter 键以创建一组新的指令。

让我们为所有搜索引擎制作这个，并防止它们抓取您的 /archive/ 和 /support/ 目录，因为它们仅供内部使用。

它看起来像这样：

User-agent: Googlebot Disallow: /clients/ Disallow: /not-for-google User-agent: * Disallow: /archive/ Disallow: /support/

after finishing，Add sitemap。

您完成的 robots.txt 文件将如下所示：

User-agent: Googlebot Disallow: /clients/ Disallow: /not-for-google User-agent: * Disallow: /archive/ Disallow: /support/ Sitemap: https://www.yourwebsite.com/sitemap.xml

保存您的 robots.txt 文件。please remember，它必须命名为 robots.txt。

Notice：爬虫从上到下读取并匹配第一组最具体的规则。therefore，首先使用特定的用户代理启动 robots.txt 文件，然后继续使用与所有爬网程序匹配的更通用的通配符 (*)。