在當今數位時代,搜尋引擎優化(SEO)是確保網站成功的不可或缺的一環。然而,即使您在內容、關鍵字和反向連結方面都已經投入了大量的心力,卻有一個經常被忽略的技術SEO方面的關鍵元素可能影響著您的SEO表現-那就是Robots.txt。
Robots.txt是一個位於網站根目錄下的文本檔案,可以被視為網站的「門衛」。
這個小巧的檔案負責指導搜尋引擎爬蟲,告訴它們哪些部分是可以訪問的,哪些是應該被忽略的。正確使用Robots.txt可以有效地引導搜尋引擎爬蟲,控制網站的檢索及索引。
在這篇文章中,Raymond (SEO Specialist) 將深入探討Robots.txt的重要性、如何撰寫一個有效的Robots.txt檔案,以及它如何影響您的網站SEO表現。
Robots.txt 是什麼?
robots.txt 是一個能告訴搜尋引擎檢索器存取或檢索網站規則的檔案,Google官方認為「這個檔案主要用來避免網站因要求過多而超載,而不是讓特定網頁無法出現在 Google 搜尋結果。」[1]
簡單來講,robots.txt 可以告訴網絡爬蟲,網站有哪些頁面不用抓取、哪些可以抓取。
Robots.txt 的位置
Robots.txt 文件通常位於網站的根目錄下。例如:https:// hoorayseo.com.hk/robots.txt。現論上只要在 URL 的末尾加上 “/ robots.txt “,就可以找到網站的 robots.txt 文件位置;不過並不一定所有網站都有設定robots.txt,所以可能沒有這個檔案。
Robots.txt教學:常見語法及設定
| 程式代碼 | 定義 |
| User-agent | • 指定搜尋引擎名稱(如 Googlebot、Bingbot) • 使用「*」代表所有搜尋引擎 • 指令不分大小寫 |
| Allow | • 允許搜尋引擎檢索的頁面/檔案 • 區分大小寫 • 需填寫完整路徑 |
| Disallow | • 禁止搜尋引擎檢索的頁面/檔案 • 區分大小寫 • 需填寫完整路徑 |
| Sitemap | • 填寫 Sitemap 檔案的完整路徑• 區分大小寫 |
以下是上述各項Robots.txt語法的範例:
1. Disallow範例
如果要阻止搜尋引擎爬蟲訪問特定目錄或頁面,您可以使用Disallow。例如,如果您不希望搜尋引擎爬蟲訪問您網站的 `/private` 目錄,則可以這樣設置:
[code]
User-agent: *
Disallow: /private/
[/code]
除了使用 Robots.txt 的 disallow 語法,Google 官方建議[2]可以使用Meta Robot的「Noindex」語法( <meta name=”robots” content=”noindex”> )提醒 Google 不收錄的頁面。
2. Allow範例
Allow的作用是明確指定允許搜尋引擎爬蟲訪問的特定目錄或頁面,儘管上層目錄可能被Disallow。例如,如果您希望允許搜尋引擎爬蟲訪問 `/public` 目錄,但其他目錄則不允許,您可以這樣設置:
[code]
User-agent: *
Disallow: /private/
Allow: /public/
[/code]
基本上Allow是預設置,如果沒有設定Disallow或Allow,那麼代表預設所有頁面均Allow。
3. Sitemap
Sitemap語法用於指定網站地圖(sitemap)的位置,這有助於搜尋引擎更有效地索引您的網站。例如,如果您的網站地圖檔案位於 `/sitemap.xml`,您可以這樣設置:
[code]
User-agent: *
Sitemap: http://www.example.com/sitemap.xml
[/code]
除了在robots.txt中放入sitemap連結,也推薦使用Google Search Console 等網站管理工具提交sitemap。
完整示範
[code]
User-agent: *
Disallow: /private/
Allow: /public/
Sitemap: http://www.example.com/sitemap.xml
[/code]
上述是1~3語法的合併示範,Sitemap通常放在最後一欄。
需要注意的是,通常所有語法都有一定的限制:
- 具體的規則優先於一般規則
- 後來的規則覆蓋先前的規則
- 部份網絡爬蟲可以選擇無視這些規則
做SEO要設定robots.txt嗎?
從SEO角度,絕多大數情況下都不需要特別設定robots.txt,最主要是確保 robots.txt 沒有錯誤設定(例如:disallow all)而限制 Google 等搜尋引擎的爬蟲程序抓取你的網站,讓整個網站都搜不到了。可以說做好 robots.txt,SEO不會加多少分,但做錯的話可能會讓你網站的SEO考0分!
特別是若你是用 Blogger 、 Wix 或 Shopify 這類 CMS,就已經預設好robots.txt了;Wordpress使用者也可以通過 Rankmath之類的SEO插件設定好。
除非你有某些目的,否則基本上並不需要特別去設定robots.txt檔案。
以下3項情況是Raymond認為有需要使用 Robots.txt 的:
- 未完成頁面
- 測試頁面
- 保密頁面
當然,個人還是不推薦使用Robots.txt處理一般頁面。
其一,若有心人打開你robots.txt,就知道你收藏的連結了。
其二,有些搜尋器的爬蟲並不會遵受這些規則,所以形同虛設,還不如用.htaccess限制某些crawler 更有效。
如果要保護頁面,也可以考慮設定密碼。
如何測試robots.txt是否順利運作?
可以使用 Robots.txt Validator 等工具測試爬蟲能否順利對網站進行檢索,Google官方也有robots.txt 測試工具:
第一步,前往:robots.txt 測試工具,點擊「開啟robots.txt 測試工具」。
第二步,「請選取資源」中選自己已提交的網站。
第三步,進入工具,輸入相關頁面,然後按右下角紅色「測試」按鈕進行測試。
robots.txt 的問與答
robots.txt是什麼?
robots.txt是一個告訴網絡爬蟲網站檢索規則的檔案。
robots.txt在哪個位置?
robots.txt在網站域名根目錄。
robots.txt會影響SEO嗎?
會影響,做SEO主要確保robots.txt 沒有錯誤設定而限制爬蟲程序抓取網站。
目錄
Toggle參考資料/工具連結:



