乜嘢係Robots.txt?
robots.txt文件係網站使用嘅組指令,用于話畀蒐索引擎哪些頁面應該被抓取,哪些頁面唔應該被抓取。Robots.txt文件指導抓取工具訪問,但不應用于把網頁排除喺Google索引之外。
robots.txt文件如下所示:

Robots.txt文件可能睇嚟好複雜,但語法(電腦語言)很簡單。我哋稍後會詳細討論呢啲細節。
做乜嘢Robots.txt好緊要?
robots.txt文件有助於管理網絡爬蟲活動,這樣它們就唔會過度使用您的網站或唔適合公眾查看嘅索引頁面。
以下係使用robots.txt文件嘅幾個原因:
1.優化抓取預算
抓取預算係指Google喺畀定時間範圍內喺你嘅網站上抓取嘅頁面數量。
該數量可能會根據您網站的大小、運行狀況和反向連結數量而有所不同。
如果你網站嘅頁面數量超出咗網站嘅抓取預算,則您的網站上可能存在未編入索引的頁面。
未索引嘅頁面唔會排名,最終,你將浪費時間創建用戶睇唔到嘅頁面。
使用robots.txt阻止不必要嘅頁面可以畀Googlebot ( Google嘅網絡抓取工具)喺重要嘅頁面上花費更多嘅抓取預算。
注意:根據Google嘅講法,大多數網站所有者無需過多擔心抓取預算。主要係擁有数千个URL嘅大型網站所關心的問題。
2. 阻止重複和非公開頁面
抓取機械人唔需要篩選網站上嘅每個頁面。因為並非所有呢啲內容都係為咗喺蒐索引擎結果頁面 (SERP) 中提供服務而創建嘅。
例如臨時站點、內部搜索結果頁面、重複頁面或登錄頁面。
某些內容管理系統會為你處理呢啲內部頁面。
例如,WordPress會自動禁止所有爬蟲訪問登錄頁面/wp-admin/。
Robots.txt允許你阻止爬蟲抓取呢啲頁面。
3.隱藏資源
有時你希望由搜索結果中排除PDF、視頻和圖像等資源。
保持其私密性或畀Google專注於更重要嘅内容。
無論哪種情況,robots.txt都會阻止牠們被抓取(並因此被編入索引)。
技術robots.txt語法
Robots.txt語法可以被認為係robots.txt文件嘅“語言”。你可能會喺robots文件中遇到五個常見術語。佢哋包括:
- 用戶代理:你向其發出爬網指令嘅特定網絡爬網程序(通常係蒐索引擎)。大多數用戶代理嘅列表可以在此處找到。
- Disallow:用于話畀用戶代理唔好抓取特定URL嘅命令。每個URL只允許有一行“Disallow:”。
- 允許(僅適用於Googlebot ):該命令話畀Googlebot它可以訪問某個頁面或子文件夾,即使其父頁面或子文件夾可能被禁止。
- 抓取延遲:爬蟲喺加載同抓取頁面內容之前應等待幾多秒。請注意,Googlebot唔接受此命令,但可以喺Google Search Console中設置抓取速度。
- 站點地圖:用于調出與此URL關聯嘅任何XML站點地圖嘅位置。請注意,僅Google、Ask、Bing同Yahoo撐此命令。
如何創建Robots.txt文件
使用robots.txt生成器工具或自己創建一個。
就係噉啦:
1. 創建一個文件並將其命名為Robots.txt
首先在文本編輯器或Web瀏覽器中打開.txt文檔。
注意:唔好使用文字處理器,因為它們通常以可以添加隨機字符的專有格式保存文件。
接下來,把文檔命名為robots.txt。
而家你已準備好開始輸入指令。
2. 將指令添加到Robots.txt文件
robots.txt文件由組或多組指令組成,每組指令由多行指令組成。
每個組都以“用戶代理”開頭,並具有以下信息:
- 該組適用於邊個(用戶代理)
- 代理可以訪問哪些目錄(頁面)或文件
- 代理無法訪問哪些目錄(頁面)或文件
- 站點地圖(可選)話畀蒐索引擎你認為重要嘅頁面同文件
爬網程序會忽略與呢啲指令唔匹配嘅行。
例如,假設你唔希望Google抓取您的/clients/目錄,因為它僅供內部使用。
第一組睇嚟好似咁:
User-agent: Googlebot
Disallow: /clients/
可以喺下面嘅單獨行中添加其他說明,如下所示:
User-agent: Googlebot
Disallow: /clients/
Disallow: /not-for-google
完成Google嘅具體說明之後,請按兩次Enter鍵以創建組新嘅指令。
等我哋為所有蒐索引擎製作呢個,並防止它們抓取您的/archive/和/support/目錄,因為它們僅供內部使用。
它看起來像這樣:
User-agent: Googlebot
Disallow: /clients/
Disallow: /not-for-google
User-agent: *
Disallow: /archive/
Disallow: /support/
完成後,添加站點地圖。
你完成嘅robots.txt文件將如下所示:
User-agent: Googlebot
Disallow: /clients/
Disallow: /not-for-google
User-agent: *
Disallow: /archive/
Disallow: /support/
Sitemap: https://www.yourwebsite.com/sitemap.xml
保存您的robots.txt文件。請記住,它必須命名為robots.txt。
注意:爬蟲由上到下讀取並匹配第一組最具體嘅規則。因此,首先使用特定嘅用戶代理啟動robots.txt文件,然後繼續使用與所有爬網程序匹配嘅更通用嘅通配符 (*)。
3.上傳Robots.txt文件
將robots.txt文件保存到電腦後,將其上傳到您的網站並使其可供蒐索引擎抓取。
不幸嘅係,一步冇通用工具。
上傳robots.txt文件取決於你網站嘅文件結構同網絡託管。
在線搜索或聯繫您的託管提供商以獲取有關上傳robots.txt文件嘅幫助。
例如,你可以搜索“將robots.txt文件上傳到WordPress”。
以下是一些文章,解釋如何喺最流行嘅平台上上傳robots.txt文件:
- WordPress中嘅Robots.txt文件
- Wix中嘅Robots.txt文件
- Joomla中嘅Robots.txt文件
- Shopify中嘅Robots.txt文件
- BigCommerce中嘅Robots.txt文件
上傳後,檢查是否有人可以看到它以及Google是否可以讀取它。
就係噉啦。
4.測試你嘅Robots.txt
首先,測試您的robots.txt文件是否可公開訪問(即是否已正確上傳)。
在瀏覽器中打開私人窗口並搜索robots.txt文件。
例如,https://semrush.com/robots.txt。

如果您看到robots.txt文件包含您添加的內容,則表明你已準備好測試標記( HTML代碼)。
Google提供了兩種測試robots.txt標記嘅選項:
- Search Console中嘅robots.txt測試程序
- Google嘅開源robots.txt庫(高級)
由於第二個選項面向高級開發人員,因此畀我哋喺Search Console中測試您的robots.txt文件。
注意:你必須設置Search Console帳戶才能測試robots.txt文件。
轉到robots.txt測試程序並單擊”打開robots.txt測試程序”。

如果你尚未把網站連結到Google Search Console帳戶,則需要先添加媒體資源。

然之後,驗證你係該網站嘅真正所有者。

注意: Google計劃關閉此設置嚮導。因此,將來你必須直接喺Search Console中驗證您的資源。請閱讀我哋嘅Google Search Console完整指南以了解具體操作方法。
如果您有現有的已驗證屬性,請由測試人員主頁嘅下拉列表中選擇一項。

測試儀將識別語法警告或邏輯錯誤。
並喺編輯器下方顯示警告和錯誤嘅總數。

你可以直接喺頁面上編輯錯誤或警告,並隨時重新測試。
頁面上所做嘅任何更改都唔會保存到您的網站。該工具唔會更改你網站上嘅實際文件。它僅針對工具中託管嘅副本進行測試。
要實施任何更改,請把編輯之後嘅測試副本複製並粘貼到你網站上嘅robots.txt文件中。