Robots.txt教學:如何使用及對SEO影響(3種常見語法)

Robots.txt

在當今數位時代,搜尋引擎優化(SEO)是確保網站成功的不可或缺的一環。然而,即使您在內容關鍵字反向連結方面都已經投入了大量的心力,卻有一個經常被忽略的技術SEO方面的關鍵元素可能影響著您的SEO表現-那就是Robots.txt

Robots.txt是一個位於網站根目錄下的文本檔案,可以被視為網站的「門衛」。

這個小巧的檔案負責指導搜尋引擎爬蟲,告訴它們哪些部分是可以訪問的,哪些是應該被忽略的。正確使用Robots.txt可以有效地引導搜尋引擎爬蟲,控制網站的檢索及索引。

在這篇文章中,Raymond (SEO Specialist) 將深入探討Robots.txt的重要性、如何撰寫一個有效的Robots.txt檔案,以及它如何影響您的網站SEO表現。

Robots.txt 是什麼?

robots.txt 是一個能告訴搜尋引擎檢索器存取或檢索網站規則的檔案,Google官方認為「這個檔案主要用來避免網站因要求過多而超載,而不是讓特定網頁無法出現在 Google 搜尋結果。」[1]

簡單來講,robots.txt 可以告訴網絡爬蟲,網站有哪些頁面不用抓取、哪些可以抓取。

Robots.txt 的位置

Robots.txt 文件通常位於網站的根目錄下。例如:https:// hoorayseo.com.hk/robots.txt。現論上只要在 URL 的末尾加上 “/ robots.txt “,就可以找到網站的 robots.txt 文件位置;不過並不一定所有網站都有設定robots.txt,所以可能沒有這個檔案。

Robots.txt教學:常見語法及設定

程式代碼定義
User-agent• 指定搜尋引擎名稱(如 Googlebot、Bingbot)

• 使用「*」代表所有搜尋引擎

• 指令不分大小寫

Allow• 允許搜尋引擎檢索的頁面/檔案

• 區分大小寫

• 需填寫完整路徑

Disallow• 禁止搜尋引擎檢索的頁面/檔案

• 區分大小寫

• 需填寫完整路徑

Sitemap• 填寫 Sitemap 檔案的完整路徑• 區分大小寫

以下是上述各項Robots.txt語法的範例:

1. Disallow範例

如果要阻止搜尋引擎爬蟲訪問特定目錄或頁面,您可以使用Disallow。例如,如果您不希望搜尋引擎爬蟲訪問您網站的 `/private` 目錄,則可以這樣設置:

[code]

User-agent: *

Disallow: /private/

[/code]

除了使用 Robots.txt 的 disallow 語法,Google 官方建議[2]可以使用Meta Robot的「Noindex」語法( <meta name=”robots” content=”noindex”> )提醒 Google 不收錄的頁面。

2. Allow範例

Allow的作用是明確指定允許搜尋引擎爬蟲訪問的特定目錄或頁面,儘管上層目錄可能被Disallow。例如,如果您希望允許搜尋引擎爬蟲訪問 `/public` 目錄,但其他目錄則不允許,您可以這樣設置:

[code]

User-agent: *

Disallow: /private/

Allow: /public/

[/code]

基本上Allow是預設置,如果沒有設定Disallow或Allow,那麼代表預設所有頁面均Allow。

3. Sitemap

Sitemap語法用於指定網站地圖(sitemap)的位置,這有助於搜尋引擎更有效地索引您的網站。例如,如果您的網站地圖檔案位於 `/sitemap.xml`,您可以這樣設置:

[code]

User-agent: *

Sitemap: http://www.example.com/sitemap.xml

[/code]

除了在robots.txt中放入sitemap連結,也推薦使用Google Search Console 等網站管理工具提交sitemap。

完整示範

[code]

User-agent: *

Disallow: /private/

Allow: /public/

Sitemap: http://www.example.com/sitemap.xml

[/code]

上述是1~3語法的合併示範,Sitemap通常放在最後一欄。

需要注意的是,通常所有語法都有一定的限制:

  1. 具體的規則優先於一般規則
  2. 後來的規則覆蓋先前的規則
  3. 部份網絡爬蟲可以選擇無視這些規則

做SEO要設定robots.txt嗎?

從SEO角度,絕多大數情況下都不需要特別設定robots.txt,最主要是確保 robots.txt 沒有錯誤設定(例如:disallow all)而限制 Google 等搜尋引擎的爬蟲程序抓取你的網站,讓整個網站都搜不到了。可以說做好 robots.txt,SEO不會加多少分,但做錯的話可能會讓你網站的SEO考0分!

特別是若你是用 Blogger 、 Wix 或 Shopify 這類 CMS,就已經預設好robots.txt了;Wordpress使用者也可以通過 Rankmath之類的SEO插件設定好。

除非你有某些目的,否則基本上並不需要特別去設定robots.txt檔案。

以下3項情況是Raymond認為有需要使用 Robots.txt 的:

  • 未完成頁面
  • 測試頁面
  • 保密頁面

當然,個人還是不推薦使用Robots.txt處理一般頁面。

其一,若有心人打開你robots.txt,就知道你收藏的連結了。

其二,有些搜尋器的爬蟲並不會遵受這些規則,所以形同虛設,還不如用.htaccess限制某些crawler 更有效。

如果要保護頁面,也可以考慮設定密碼。

如何測試robots.txt是否順利運作?

可以使用 Robots.txt Validator 等工具測試爬蟲能否順利對網站進行檢索,Google官方也有robots.txt 測試工具:

第一步,前往:robots.txt 測試工具,點擊「開啟robots.txt 測試工具」。

第二步,「請選取資源」中選自己已提交的網站。

第三步,進入工具,輸入相關頁面,然後按右下角紅色「測試」按鈕進行測試。

robots.txt 的問與答

robots.txt是什麼?

robots.txt是一個告訴網絡爬蟲網站檢索規則的檔案。

robots.txt在哪個位置?

robots.txt在網站域名根目錄。

robots.txt會影響SEO嗎?

會影響,做SEO主要確保robots.txt 沒有錯誤設定而限制爬蟲程序抓取網站。

參考資料/工具連結:

[1] Introduction to robots.txt

Block Search indexing with noindex

WhatsApp
Facebook
相關文章:
TOC