Google SEO Tutorial

Robots.txt:什么是 Robots.Txt 以及为什么它对 SEO 很重要

什么是Robots.txt?

robots.txt 文件是网站使用的一组指令用于告诉搜索引擎哪些页面应该被抓取哪些页面不应该被抓取Robots.txt 文件指导抓取工具访问但不应用于将网页排除在 Google 索引之外

robots.txt 文件如下所示

robots.txt 示例

Robots.txt 文件可能看起来很复杂但语法(计算机语言)很简单我们稍后会详细讨论这些细节

为什么 Robots.txt 很重要?

robots.txt 文件有助于管理网络爬虫活动这样它们就不会过度使用您的网站或不适合公众查看的索引页面。 

以下是使用 robots.txt 文件的几个原因

1.优化抓取预算

抓取预算是指 Google 在给定时间范围内在您的网站上抓取的页面数量

该数量可能会根据您网站的大小运行状况和backlinks数量而有所不同。 

如果您网站的页面数量超出了网站的抓取预算则您的网站上可能存在未编入索引的页面。 

未索引的页面不会排名最终您将浪费时间创建用户看不到的页面。 

使用 robots.txt 阻止不必要的页面可以让 Googlebot(Google 的网络抓取工具)在重要的页面上花费更多的抓取预算。 

Notice:根据 Google 的说法大多数网站所有者无需过多担心抓取预算这主要是拥有数千个 URL 的大型网站所关心的问题

2. 阻止重复和非公开页面

抓取机器人不需要筛选网站上的每个页面因为并非所有这些内容都是为了在搜索引擎结果页面 (SERP) 中提供服务而创建的

例如临时站点内部搜索结果页面重复页面或登录页面

某些内容管理系统会为您处理这些内部页面。 

For example,WordPress 会自动禁止所有爬虫访问登录页面 /wp-admin/。 

Robots.txt 允许您阻止爬虫抓取这些页面

3.隐藏资源

有时您希望从搜索结果中排除 PDF视频和图像等资源。 

保持其私密性或让 Google 专注于更重要的内容

无论哪种情况robots.txt 都会阻止它们被抓取(并因此被编入索引)

技术 robots.txt 语法

Robots.txt 语法可以被认为是 robots.txt 文件的“语言”您可能会在 robots 文件中遇到五个常见术语他们包括

  • 用户代理您向其发出爬网指令的特定网络爬网程序(通常是搜索引擎)大多数用户代理的列表可以在此处找到
  • Disallow用于告诉用户代理不要抓取特定 URL 的命令每个 URL 只允许有一行“Disallow:”。
  • 允许(仅适用于 Googlebot)该命令告诉 Googlebot 它可以访问某个页面或子文件夹即使其父页面或子文件夹可能被禁止
  • 抓取延迟爬虫在加载和抓取页面内容之前应等待多少秒。Please note,Googlebot 不接受此命令,but可以在 Google Search Console 中设置抓取速度
  • sitemap:用于调出与此 URL 关联的任何 XML 站点地图的位置。Please note,仅Google、Ask、Bing 和 Yahoo支持此命令

如何创建 Robots.txt 文件

userobots.txt 生成器工具或自己创建一个。 

就是这样

1. 创建一个文件并将其命名为Robots.txt

首先在文本编辑器或 Web 浏览器中打开 .txt 文档。 

Notice:不要使用文字处理器因为它们通常以可以添加随机字符的专有格式保存文件。 

Next,将文档命名为 robots.txt。 

现在您已准备好开始输入指令

2. 将指令添加到 Robots.txt 文件

robots.txt 文件由一组或多组指令组成每组指令由多行指令组成。 

每个组都以“用户代理”开头并具有以下信息

  • 该组适用于谁(用户代理)
  • 代理可以访问哪些目录(页面)或文件
  • 代理无法访问哪些目录(页面)或文件
  • 站点地图(可选)告诉搜索引擎您认为重要的页面和文件

爬网程序会忽略与这些指令不匹配的行

For example,假设您不希望 Google 抓取您的 /clients/ 目录因为它仅供内部使用

第一组看起来像这样: 

User-agent: Googlebot
Disallow: /clients/

可以在下面的单独行中添加其他说明,As follows:

User-agent: Googlebot
Disallow: /clients/
Disallow: /not-for-google

完成 Google 的具体说明后请按两次 Enter 键以创建一组新的指令。 

让我们为所有搜索引擎制作这个并防止它们抓取您的 /archive/ 和 /support/ 目录因为它们仅供内部使用。 

它看起来像这样

User-agent: Googlebot
Disallow: /clients/
Disallow: /not-for-google
User-agent: *
Disallow: /archive/
Disallow: /support/

after finishing,Add sitemap。

您完成的 robots.txt 文件将如下所示

User-agent: Googlebot
Disallow: /clients/
Disallow: /not-for-google
User-agent: *
Disallow: /archive/
Disallow: /support/
Sitemap: https://www.yourwebsite.com/sitemap.xml

保存您的 robots.txt 文件。please remember,它必须命名为 robots.txt

Notice:爬虫从上到下读取并匹配第一组最具体的规则。therefore,首先使用特定的用户代理启动 robots.txt 文件然后继续使用与所有爬网程序匹配的更通用的通配符 (*)。

3.上传Robots.txt文件

将 robots.txt 文件保存到计算机后将其上传到您的网站并使其可供搜索引擎抓取

不幸的是这一步没有通用工具

上传 robots.txt 文件取决于您网站的文件结构和网络托管。 

在线搜索或联系您的托管提供商以获取有关上传 robots.txt 文件的帮助。 

For example,您可以搜索“将 robots.txt 文件上传到 WordPress”

以下是一些文章解释如何在最流行的平台上上传 robots.txt 文件

上传后检查是否有人可以看到它以及Google是否可以读取它

就是这样

4.测试你的Robots.txt

first,测试您的 robots.txt 文件是否可公开访问(即是否已正确上传)。 

在浏览器中打开私人窗口并搜索 robots.txt 文件。 

For example,https://semrush.com/robots.txt。 

https://semrush.com/robots.txt 搜索示例

如果您看到 robots.txt 文件包含您添加的内容则表明您已准备好测试标记(HTML 代码)。 

Google 提供了两种测试 robots.txt 标记的选项

  1. Search Console 中的robots.txt 测试程序
  2. Google 的开源 robots.txt 库(高级)

由于第二个选项面向高级开发人员因此让我们在 Search Console 中测试您的 robots.txt 文件

Notice:您必须设置Search Console帐户才能测试 robots.txt 文件。 

Go torobots.txt 测试程序并单击“打开 robots.txt 测试程序”。

打开 robots.txt 测试器

如果您尚未将网站链接到 Google Search Console 帐户则需要先添加媒体资源

添加显示的属性选项

Then,验证您是该网站的真正所有者

验证步骤推荐方法

Notice: Google 计划关闭此设置向导。therefore,将来您必须直接在 Search Console 中验证您的资源请阅读我们的Google Search Console完整指南以了解具体操作方法

如果您有现有的已验证属性请从测试人员主页的下拉列表中选择一项

从下拉列表中选择属性

测试仪将识别语法警告或逻辑错误。 

并在编辑器下方显示警告和错误的总数

显示警告和错误

您可以直接在页面上编辑错误或警告并随时重新测试。 

页面上所做的任何更改都不会保存到您的网站该工具不会更改您网站上的实际文件它仅针对工具中托管的副本进行测试。 

要实施任何更改请将编辑后的测试副本复制并粘贴到您网站上的 robots.txt 文件中

About Editorial Department

kuajinggu’s editorial staff is a team of WordPress experts,Led by Dylan,In WordPress、virtual host、e-commerce、Over 10 years of experience in SEO and marketing。kuajinggu was created in 2014 Year,Currently the largest free WordPress resource website in the industry,Often referred to as the Wikipedia of WordPress。

Leave a Reply