1. 什么是 robots.txt?
robots.txt
是放在网站根目录下的一个文本文件,用来告诉搜索引擎蜘蛛(crawler/#robot)哪些页面或目录可以抓取,哪些需要屏蔽。
例如:
-
允许所有搜索引擎抓取:
User-agent: *
Allow: / -
禁止所有搜索引擎抓取:
User-agent: *
Disallow: /
2. 常见的 robots.txt 设置方式
✅ 2.1 允许所有内容被抓取
适合内容型网站(电商,博客)
User-agent: *
Allow: /
✅ 2.2 禁止整个网站抓取
适合开发中、测试环境
User-agent: *
Disallow: /
✅ 2.3 屏蔽指定目录
适合屏蔽后台、敏感目录
User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /cart/
✅ 2.4 针对特定搜索引擎设置
单独禁止 Googlebot 抓取某些目录
User-agent: Googlebot
Disallow: /private/
✅ 2.5 添加 sitemap 提示
告诉搜索引擎 sitemap.xml 的地址
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml
3. 如何修改 robots.txt
? 3.1 WordPress 网站
方法一:安装 Yoast SEO 或 Rank Math 插件,在后台直接编辑 robots.txt;
方法二:通过 FTP 或主机面板,进入网站根目录
/public_html/
,找到 robots.txt 文件并手动修改。
? 3.2 Shopify / Wix / Squarespace
一般系统自动生成,修改权限有限,可以通过 SEO 插件或主题设置调整。
? 3.3 自建独立站 (PHP/HTML)
在网站根目录(例如
/var/www/html/
)新建或修改robots.txt
文件;保存后上传至服务器即可生效。
4. 修改 robots.txt 的注意事项
不要屏蔽重要页面:产品页、分类页必须允许抓取;
避免误屏蔽 CSS/JS:否则可能影响 Google 渲染;
调试工具:可以用 [Google Search Console → 抓取工具测试 robots.txt];
记得更新 sitemap:修改 robots.txt 后,最好提交 sitemap,帮助搜索引擎重新抓取。
文章为作者独立观点,不代表DLZ123立场。如有侵权,请联系我们。( 版权为作者所有,如需转载,请联系作者 )

网站运营至今,离不开小伙伴们的支持。 为了给小伙伴们提供一个互相交流的平台和资源的对接,特地开通了独立站交流群。
群里有不少运营大神,不时会分享一些运营技巧,更有一些资源收藏爱好者不时分享一些优质的学习资料。
现在可以扫码进群,备注【加群】。 ( 群完全免费,不广告不卖课!)
发表评论 取消回复