什么是抓取预算?
抓取预算是指给定时间范围内 Googlebot 在网站上抓取并建立索引的页面数量。
为什么抓取预算对 SEO 很重要?
抓取预算不是技术 SEO 的排名因素。
简而言之:如果谷歌不索引一个页面,它就不会排名任何内容。
因此,如果您的页面数量超出了网站的抓取预算,您网站上的页面将不会被编入索引。
也就是说,绝大多数网站不需要担心抓取预算。谷歌非常擅长查找和索引页面。
也就是说,在某些情况下您确实需要注意抓取预算:
- 您运营一个大型网站:如果您的网站(例如电子商务网站)包含超过 10,000 个页面,Google 可能很难找到所有页面。
- 您刚刚添加了一堆页面:如果您最近向网站添加了一个包含数百个页面的新版块,您需要确保您有足够的抓取预算它们都很快被编入索引。
- 大量重定向:大量重定向和重定向链会耗尽您的抓取预算。重定向一个>
如何为网站分配抓取预算?
这基于两个因素:抓取限制和抓取需求:
- 抓取限制/主机负载:网站可以处理多少抓取,其所有者的偏好是什么?
- 抓取需求/抓取计划:根据其受欢迎程度和更新频率,哪些网址最值得(重新)抓取。
抓取预算是 SEO 中的常用术语。抓取预算有时也称为抓取空间或抓取时间。
Google 如何确定抓取预算?
每个网站都有一个独特的抓取预算,由两个主要元素控制:抓取需求和抓取限制。
了解它们的工作原理以及幕后发生的事情非常重要。
抓取需求
抓取需求是指Google有多少欲望抓取您的网站。
影响这种需求的因素有两个:流行度和陈旧性。
人气
Google 优先考虑具有更多反向链接或吸引更高流量的页面。因此,如果人们访问您的网站或链接到该网站,谷歌的算法就会收到信号,表明您的网站值得更频繁地抓取。
反向链接 尤其可以帮助 Google 确定哪些页面值得抓取。如果 Google 注意到人们正在谈论您的网站,它就会对其进行更多抓取,以了解其炒作内容。
请注意,反向链接的数量本身并不重要——反向链接应该是相关的并且来自权威来源。
您可以使用Semrush 的反向链接分析工具来查看哪些页面吸引最多反向链接并可能吸引 Google 的注意。输入域名并单击“索引页面”选项卡。
在这里您可以看到反向链接最多的页面:
陈旧性
Googlebot 不会抓取一段时间没有更新的页面。
谷歌尚未透露搜索引擎再次抓取该网站的频率。但是,如果算法注意到一般站点更新,机器人会暂时增加抓取预算。
例如,Googlebot 经常抓取新闻网站,因为它们每天会多次发布新内容。
这种情况下,网站的抓取需求就很高。
将此与更新不那么频繁的有关著名艺术作品历史的网站进行比较。
其他可能向 Google 发出抓取变化信号的操作包括:
- 域名更改:当您更改网站的域名时,Google 的算法需要更新其索引以反映新的网址。它将抓取网站以了解变化并将排名信号传递到新域。
- 网址结构更改:如果您通过更改目录层次结构或删除来修改网站的网址结构或者添加子域,Google 机器人需要重新抓取页面才能正确为新网址编制索引
- 内容更新:对网站内容的重大更新(例如重写大部分页面、添加新页面或删除过时的内容)可以吸引算法的注意并提示它重新抓取您的网站
- XML 站点地图提交:更新您的XML 站点地图并将其重新提交到 Google Search Console 可以通知 Google有变化要爬行。当您希望确保 Google 立即将新的或更新的网页编入索引时,这一点特别有用。
抓取速率限制
抓取速度限制决定机器人从您的网站访问和下载网页以准备在搜索结果上提供的内容的速度。
这是 Google 确保其抓取不会使您的服务器超载的方法。
抓取限制可防止机器人因过多请求而使您的网站陷入困境,从而导致性能问题。
如果您的网站响应速度很快,Google 就会获得增加限制的绿灯,然后它就可以使用更多资源来抓取它。
同样,如果 Google 遇到服务器错误或您的网站速度变慢,限制就会下降,Googlebot 会减少对网站的抓取。
您还可以手动更改抓取限制,但务必谨慎执行此操作。 Google 建议不要限制抓取速度,除非您的服务器速度变慢。
要更改抓取速度,请转到 Search Console 上的“网站设置”并调整栏。调整通常需要两天的时间才能应用。
我的网站的抓取预算是多少?
在所有搜索引擎中,Google 的网站抓取预算最为透明。
Google Search Console 中的抓取预算
如果您在 Google Search Console 中验证了您的网站,则可以深入了解您网站的 Google 抓取预算。
按着这些次序:
- 登录 Google Search Console 并选择一个网站。
- 前往
Crawl
>Crawl Stats
。您可以在此处查看 Google 每天抓取的网页数量。
2016 年夏季,我们的抓取预算如下所示:
我们在这里看到平均抓取预算为 27 页/天。因此,从理论上讲,如果平均抓取预算保持不变,您的每月抓取预算将为 27 页 x 30 天 = 810 页。
快进 2 年,看看我们现在的抓取预算是多少:
我们的平均抓取预算为 253 页/天,因此您可以说我们的抓取预算在 2 年内增加了 10 倍。
抓取过程如何进行?
抓取过程使用机器人来发现、抓取、分析网页并为网页编制索引 a>为用户提供最相关且高质量的搜索结果。
它以过去抓取的网址列表和网站所有者提供的 XML 站点地图开始。然后,Google 使用网络抓取工具访问这些地址、阅读信息并跟踪这些页面上的链接。
抓取工具会重新访问 Google 列表中已有的页面,以检查它们是否已更改,并抓取新页面。
在此过程中,机器人会根据抓取需求确定抓取时间和抓取内容的优先级,同时确保网站可以处理其发出的服务器请求。
然后,它会处理成功抓取的页面并将其传递给 Google,以便在搜索结果上建立索引。
大多数时候,Google 可以有效地抓取较小的网站。
当涉及到拥有数百万个 URL 的大型网站时,Google 需要优先考虑何时抓取、抓取哪些内容以及应投入多少资源。
如何检查您的抓取活动
Google Search Console 在抓取统计报告中提供有关抓取活动的完整信息,包括抓取错误和抓取速度。
您的抓取统计报告可帮助您仔细检查 Google 是否可以访问您的内容并为其建立索引。它还可以在您网站的可见性下降之前识别并解决任何问题。
要访问抓取统计报告,请登录 Search Console 并点击“设置”。
摘要页面为您提供了大量信息。主要内容是:
超时图表
超时图表突出显示过去 90 天内的抓取数据。
这一切意味着什么:
- 抓取请求总数:Google 在过去 90 天内发出的抓取请求数。
- 总下载大小Google 抓取工具在特定时间段内访问您的网站时下载的数据总量。
- 平均响应时间:网站服务器响应用户浏览器请求所需的时间。
分组抓取数据
分组爬网数据提供有关爬网请求的信息。
数据根据 URL 文件类型、响应、Googlebot 类型和请求目的(发现新页面或刷新现有页面)来划分这些请求。
主机状态
主机状态显示您网站的一般可用性以及 Google 是否可以毫无问题地访问该网站。
这是一个细分:
- robots.txt 部分中的错误意味着 Google 因任何技术原因无法抓取您的网站。 Robots.txt 抓取会告诉您机器人在抓取您的 robots.txt 文件时所经历的失败率。虽然您的网站不需要 robots.txt 文件,但在请求时必须返回成功响应 200 或 404。如果 Googlebot 出现连接问题(例如 503 HTTP 状态),它将停止抓取您的网站。
- DNS 解析会告诉您 DNS 服务器何时无法识别您的主机名或在爬网期间没有响应。如果您在此处遇到问题,请联系您的注册商以验证您的网站设置是否正确以及您的服务器是否具有有效的互联网连接。
- 服务器连接会告诉您服务器何时无响应或未提供完整响应。如果您在此处看到峰值或持续的连接问题,您可能需要与您的提供商讨论增加容量或修复可用性问题。
因此,这里有一些简单的方法可以最大限度地提高网站的抓取预算。
优化抓取预算的 9 个技巧
提高网站速度
提高网站的页面速度可能会导致 Googlebot 抓取您网站的更多网址。
事实上,Google 声明:
“使网站速度更快可以改善用户体验,同时也提高抓取速度。”
换句话说:
缓慢的页面加载消耗了 Googlebot 的宝贵时间。
但如果您的页面加载速度很快,Googlebot就有时间访问您的更多页面并为其建立索引。
使用内部链接
Googlebot 会优先考虑有大量外部和内部链接指向的页面。
是的,理想情况下您会获得指向网站上每个页面的反向链接。但在大多数情况下这是不现实的。通过消除任何损坏的链接来保持页面优化。对于内部链接,损坏的链接指向尚未重定向/删除的已删除或移动的页面。
您需要查找并修复损坏的链接作为最佳 SEO 实践。
这不应掩盖内部链接如此关键的事实。
您的内部链接会将 Googlebot 发送到您网站上您想要编入索引的所有不同页面。
扁平化网站架构
“互联网上更受欢迎的 URL 往往会被更频繁地抓取,以使其在我们的索引中保持新鲜。”
而在谷歌的世界里,流行=链接权威。
这就是您想要在网站上使用扁平网站架构的原因。
扁平架构的设置使得网站的所有页面都有一些链接权限流向它们。
避免“孤立页面”
孤立页面是没有内部或外部链接指向的页面。
谷歌很难找到孤立页面。因此,如果您想充分利用抓取预算,请确保至少有一个内部或外部链接指向您网站上的每一页。
限制重复内容
限制重复内容是明智之举,原因有很多。
事实证明,重复的内容会损害您的抓取预算。
这是因为 Google 不想通过为具有相同内容的多个页面建立索引来浪费资源。
因此,请确保您网站的 100% 页面均由独特的优质内容组成。
对于一个拥有超过 10k 页面的网站来说,这并不容易。但如果您想从抓取预算中获得最大收益,这是必须的。
减少重定向
重定向自动将机器人从一个网页发送到另一个网页。如果机器人访问已移动或删除的页面,重定向会将其带到该页面的新位置或解释原始页面不再可用的原因的页面。
重定向需要机器人提供更多资源,因为它们访问的页面超出了必要的范围。
转到问题标签网站审核 。
警告部分将告诉您有多少个网址存在临时重定向。
大多数浏览器在一次抓取中最多会遵循五个重定向链。
如果您使用重定向,请确保它们符合逻辑。
假设某体育网站有一篇关于去年足球比赛的文章,网址为“example.com/football-game-2022”。
然而,今年的比赛有一个不同的网址:“example.com/football-game-2023”。
为了避免混淆,该网站可能会设置重定向,以便任何尝试访问“example.com/football-game-2022”的人都会自动重定向到“example.com/football-game-2023”。
这种重定向是合乎逻辑的。
另一方面,该网站可能有多个不必要的重定向,例如从“example.com/football-game-2022”重定向到“example.com/football-game-recaps”,然后重定向到“example.com/football-game” -2023 年。”
这将创建一个浪费资源的重定向链,并可能损害网站的抓取效率。
修复损坏的链接
损坏的链接是机器人无法访问的页面。它们会损害您的抓取能力和用户体验。
当机器人无法访问页面时,它们就无法对其进行爬网和索引。这些错误太多会减慢抓取过程并消耗您的抓取预算。
例如,亚马逊上的 404 错误如下所示。
Robots.txt
Robots.txt 文件是您放置在网站根目录中的文本文件,用于告诉搜索引擎机器人哪些页面或部分它不应抓取或索引该网站的内容。
Robots.txt 文件可帮助您阻止不重要或私人页面,例如登录页面。您不希望机器人对这些页面建立索引并浪费资源,因此最好告诉机器人他们需要做什么。
简单的 robots.txt 文件如下所示:
禁止之后的所有页面指定您不希望编入索引的页面。
要创建 robots.txt 文件,请使用robots.txt 生成器工具。您也可以自己制作一个。
首先使用任何文本编辑器或网络浏览器打开一个 .txt 文档,并将该文档命名为 robots.txt。
然后添加指令,这是多行教学。
使用索引 API
如果您需要更快地抓取网页,请检查您是否有资格使用 Google 的Indexing API。目前,这仅适用于少数用例,例如职位发布或实时视频。
Bing 还有一个可供所有人使用的Indexing API 。
最后的想法
爬行的速度不会影响您的排名。我想重申,大多数人不必担心抓取预算。如果您确实有担忧,我希望本指南很有用。
通常,我只有在没有爬行和索引的页面问题的情况下进行调查,我需要解释为什么有人不必担心它,或者我碰巧在Google Search Search Console中的爬网统计报告中看到了与我有关的东西。 。