一個告訴搜索引擎“哪些能看,哪些別看”;另一個告訴它“我最希望你看這些”。這兩個配置雖簡單,但對SEO效果影響巨大。
一、什么是 Robots.txt?
Robots.txt 是網站根目錄下的一個文本文件,用來告訴搜索引擎爬蟲哪些頁面可以抓取、哪些不可以。它不控制頁面是否會被收錄,但能指導搜索引擎“抓取優先級”。
? 常見作用:
- 阻止抓取重復或無價值頁面(如后臺、搜索頁)
- 節省網站抓取資源
- 避免隱私或測試內容被搜索引擎抓到
二、Robots.txt 的基本語法
User-agent: * # 適用于所有搜索引擎
Disallow: /admin/ # 禁止訪問后臺目錄
Allow: /public/ # 允許訪問公開目錄
Sitemap: https://www.example.com/sitemap.xml # 指定網站地圖位置
示例說明:
User-agent: 設定要對哪個搜索引擎生效,* 表示所有。
Disallow: 不允許抓取的路徑。
Allow: 顯式允許抓取的路徑(可用于更細粒度控制)。
Sitemap: 網站地圖的完整URL地址(可直接寫在robots.txt里,利于爬蟲發現)。
示例文件:
User-agent: *
Disallow: /search/
Disallow: /cart/
Allow: /
Sitemap: https://www.example.com/sitemap.xml
三、注意事項與常見誤區
錯誤做法 |
正確做法 |
把重要頁面Disallow了 |
只屏蔽不想被抓取的非核心內容 |
屏蔽JS和CSS |
搜索引擎需讀取JS/CSS理解頁面結構 |
忘了指定Sitemap位置 |
在robots.txt中注明sitemap地址 |
誤將404頁面設為Disallow |
404本身應被識別,無需特別屏蔽 |
四、什么是網站地圖(Sitemap)?
網站地圖(XML格式)是列出網站所有重要頁面的清單,方便搜索引擎系統性地抓取內容,特別適合大型網站、更新頻繁或結構復雜的網站。
? 有了 Sitemap,能帶來什么?
- 提高新頁面收錄速度
- 避免重要頁面被遺漏
- 提供頁面最后更新時間、優先級等提示
- 對結構復雜、不容易通過內鏈發現的內容尤為重要
五、Sitemap 怎么做?
1. 生成方式
使用SEO插件(如 Yoast SEO、Rank Math)
使用工具自動生成(如 XML-sitemaps.com)
自建動態生成腳本(適合大站)
2. 提交方式
將 Sitemap 鏈接寫入 Robots.txt 文件中
登錄 Google Search Console,手動提交 Sitemap 地址
同理,Bing Webmaster Tools 也可提交
示例 sitemap.xml 內容:
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.example.com/</loc>
<lastmod>2025-05-01</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://www.example.com/blog/seo-basics</loc>
<lastmod>2025-05-10</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
六、Robots.txt 與 Sitemap 配合使用建議
Robots.txt 不應屏蔽 Sitemap 文件路徑
Sitemap 中不應列出被 robots.txt 屏蔽的頁面
Sitemap 是主動“推薦”,Robots.txt 是“限制”,兩者功能互補
七、適合配置 Robots.txt 和 Sitemap 的網站類型
企業官網:編寫基礎的robots.txt+提交sitemap
電商網站:屏蔽重復路徑、篩選頁+細化Sitemap
內容型網站:Sitemap列出所有內容頁+標注更新日期
獨立站/博客:自動生成插件+明確Sitemap結構