Robots.Txt：乜嘢係Robots.Txt以及點解它對SEO好緊要

乜嘢係Robots.txt？

robots.txt文件係網站使用嘅組指令，用于話畀蒐索引擎哪些頁面應該被抓取，哪些頁面唔應該被抓取。Robots.txt文件指導抓取工具訪問，但不應用于把網頁排除喺Google索引之外。

robots.txt文件如下所示：

Robots.txt文件可能睇嚟好複雜，但語法（電腦語言）很簡單。我哋稍後會詳細討論呢啲細節。

做乜嘢Robots.txt好緊要？

robots.txt文件有助於管理網絡爬蟲活動，這樣它們就唔會過度使用您的網站或唔適合公眾查看嘅索引頁面。

以下係使用robots.txt文件嘅幾個原因：

1.優化抓取預算

抓取預算係指Google喺畀定時間範圍內喺你嘅網站上抓取嘅頁面數量。

該數量可能會根據您網站的大小、運行狀況和反向連結數量而有所不同。

如果你網站嘅頁面數量超出咗網站嘅抓取預算，則您的網站上可能存在未編入索引的頁面。

未索引嘅頁面唔會排名，最終，你將浪費時間創建用戶睇唔到嘅頁面。

使用robots.txt阻止不必要嘅頁面可以畀Googlebot （ Google嘅網絡抓取工具）喺重要嘅頁面上花費更多嘅抓取預算。

注意：根據Google嘅講法，大多數網站所有者無需過多擔心抓取預算。主要係擁有数千个URL嘅大型網站所關心的問題。

2. 阻止重複和非公開頁面

抓取機械人唔需要篩選網站上嘅每個頁面。因為並非所有呢啲內容都係為咗喺蒐索引擎結果頁面 (SERP) 中提供服務而創建嘅。

例如臨時站點、內部搜索結果頁面、重複頁面或登錄頁面。

某些內容管理系統會為你處理呢啲內部頁面。

例如，WordPress會自動禁止所有爬蟲訪問登錄頁面/wp-admin/。

Robots.txt允許你阻止爬蟲抓取呢啲頁面。

3.隱藏資源

有時你希望由搜索結果中排除PDF、視頻和圖像等資源。

保持其私密性或畀Google專注於更重要嘅内容。

無論哪種情況，robots.txt都會阻止牠們被抓取（並因此被編入索引）。

技術robots.txt語法

Robots.txt語法可以被認為係robots.txt文件嘅“語言”。你可能會喺robots文件中遇到五個常見術語。佢哋包括：

用戶代理：你向其發出爬網指令嘅特定網絡爬網程序（通常係蒐索引擎）。大多數用戶代理嘅列表可以在此處找到。
Disallow：用于話畀用戶代理唔好抓取特定URL嘅命令。每個URL只允許有一行“Disallow:”。
允許（僅適用於Googlebot ）：該命令話畀Googlebot它可以訪問某個頁面或子文件夾，即使其父頁面或子文件夾可能被禁止。
抓取延遲：爬蟲喺加載同抓取頁面內容之前應等待幾多秒。請注意，Googlebot唔接受此命令，但可以喺Google Search Console中設置抓取速度。
站點地圖：用于調出與此URL關聯嘅任何XML站點地圖嘅位置。請注意，僅Google、Ask、Bing同Yahoo撐此命令。

如何創建Robots.txt文件

使用robots.txt生成器工具或自己創建一個。

就係噉啦：

1. 創建一個文件並將其命名為Robots.txt

首先在文本編輯器或Web瀏覽器中打開.txt文檔。

注意：唔好使用文字處理器，因為它們通常以可以添加隨機字符的專有格式保存文件。

接下來，把文檔命名為robots.txt。

而家你已準備好開始輸入指令。

2. 將指令添加到Robots.txt文件

robots.txt文件由組或多組指令組成，每組指令由多行指令組成。

每個組都以“用戶代理”開頭，並具有以下信息：

該組適用於邊個（用戶代理）
代理可以訪問哪些目錄（頁面）或文件
代理無法訪問哪些目錄（頁面）或文件
站點地圖（可選）話畀蒐索引擎你認為重要嘅頁面同文件

爬網程序會忽略與呢啲指令唔匹配嘅行。

例如，假設你唔希望Google抓取您的/clients/目錄，因為它僅供內部使用。

第一組睇嚟好似咁：

User-agent: Googlebot Disallow: /clients/

可以喺下面嘅單獨行中添加其他說明，如下所示：

User-agent: Googlebot Disallow: /clients/ Disallow: /not-for-google

完成Google嘅具體說明之後，請按兩次Enter鍵以創建組新嘅指令。

等我哋為所有蒐索引擎製作呢個，並防止它們抓取您的/archive/和/support/目錄，因為它們僅供內部使用。

它看起來像這樣：

User-agent: Googlebot Disallow: /clients/ Disallow: /not-for-google User-agent: * Disallow: /archive/ Disallow: /support/

完成後，添加站點地圖。

你完成嘅robots.txt文件將如下所示：

User-agent: Googlebot Disallow: /clients/ Disallow: /not-for-google User-agent: * Disallow: /archive/ Disallow: /support/ Sitemap: https://www.yourwebsite.com/sitemap.xml

保存您的robots.txt文件。請記住，它必須命名為robots.txt。

注意：爬蟲由上到下讀取並匹配第一組最具體嘅規則。因此，首先使用特定嘅用戶代理啟動robots.txt文件，然後繼續使用與所有爬網程序匹配嘅更通用嘅通配符 (*)。

3.上傳Robots.txt文件

將robots.txt文件保存到電腦後，將其上傳到您的網站並使其可供蒐索引擎抓取。

不幸嘅係，一步冇通用工具。

上傳robots.txt文件取決於你網站嘅文件結構同網絡託管。

在線搜索或聯繫您的託管提供商以獲取有關上傳robots.txt文件嘅幫助。

例如，你可以搜索“將robots.txt文件上傳到WordPress”。

以下是一些文章，解釋如何喺最流行嘅平台上上傳robots.txt文件：

WordPress中嘅Robots.txt文件
Wix中嘅Robots.txt文件
Joomla中嘅Robots.txt文件
Shopify中嘅Robots.txt文件
BigCommerce中嘅Robots.txt文件

上傳後，檢查是否有人可以看到它以及Google是否可以讀取它。

就係噉啦。

4.測試你嘅Robots.txt

首先，測試您的robots.txt文件是否可公開訪問（即是否已正確上傳）。

在瀏覽器中打開私人窗口並搜索robots.txt文件。

例如，https://semrush.com/robots.txt。

如果您看到robots.txt文件包含您添加的內容，則表明你已準備好測試標記（ HTML代碼）。

Google提供了兩種測試robots.txt標記嘅選項：

Search Console中嘅robots.txt測試程序
Google嘅開源robots.txt庫（高級）

由於第二個選項面向高級開發人員，因此畀我哋喺Search Console中測試您的robots.txt文件。

注意：你必須設置Search Console帳戶才能測試robots.txt文件。

轉到robots.txt測試程序並單擊”打開robots.txt測試程序”。

如果你尚未把網站連結到Google Search Console帳戶，則需要先添加媒體資源。

然之後，驗證你係該網站嘅真正所有者。

注意： Google計劃關閉此設置嚮導。因此，將來你必須直接喺Search Console中驗證您的資源。請閱讀我哋嘅Google Search Console完整指南以了解具體操作方法。

如果您有現有的已驗證屬性，請由測試人員主頁嘅下拉列表中選擇一項。

測試儀將識別語法警告或邏輯錯誤。

並喺編輯器下方顯示警告和錯誤嘅總數。

你可以直接喺頁面上編輯錯誤或警告，並隨時重新測試。

頁面上所做嘅任何更改都唔會保存到您的網站。該工具唔會更改你網站上嘅實際文件。它僅針對工具中託管嘅副本進行測試。

要實施任何更改，請把編輯之後嘅測試副本複製並粘貼到你網站上嘅robots.txt文件中。

博客

Robots.txt:乜嘢係Robots.Txt以及點解它對SEO好緊要

乜嘢係Robots.txt？