独立站运营中被忽略的重要问题

957 阅读 0 评论 8 点赞

很多独立站在运营中都忽略了一个至关重要的问题。

爬虫（也叫BOT ，Crawler）

根据对我们是否有用，可以把爬虫分为两类，从搜索引擎来的爬虫，比如Google bot ，Bing bot ，这些爬虫的作用是爬取网站的内容，收录内容到搜索引擎，这些爬虫对网站的流量是有好处的，可以理解为好的，是“益虫”。

那坏的爬虫就是AI爬虫，SEO爬虫，漏洞扫描爬虫等。坏的爬虫会占用服务器的CPU和内存资源，而网站却得不到任何好处。有的爬虫会爬取你的网站信息，做出一样的网站，也可能研究你的资料，然后出售给你的竞争对手。

让我来一一说明：

如果运行的是VPS或者服务器，你就会知道 CPU 、内存资源和网络带宽都很宝贵，它们是你网站飞速运行的保障。

想象一下，当你打开网站的访问日志，发现每2-3秒访问你网站的都是爬虫，而且是无用的爬虫，这些爬虫机器人吃掉你网站的CPU和带宽，你的网站打开越来越慢，甚至影响了Google ，Bing等搜索引擎的爬虫的正常工作。

如果使用的是共享主机，那就更不用说了，本来硬件资源就得不到保障，还被爬虫浪费了.....

也行你会说，还好我是用的SAAS建站。(类似Shopify，YY等电商建站系统)。

那你的产品内容，你的博客文章、图片和视频也会被人工智能公司抓取并抄袭。这些公司会用抓取的内容来训练他们的大型语言模型 (LLM)，这样其他人就能轻松地制作出与你内容相似的内容。

更重要的是，像 Ahrefs 和 SEMrush 这样的 SEO 公司会抓取你的网站，发掘你的外链情况，并将这些信息出售给你的竞争对手，出售给那些希望在搜索引擎上超越你的企业....

还有一些漏洞扫描的爬虫它们都是恶意的，探测你服务器和网站的漏洞，黑掉你的服务器或者更改你网站的内容（挂外链等）....

恶意机器人列表：

一、AI 爬虫

前面说了，现在很多AI公司会抓取的内容来训练他们的大型语言模型 (LLM)。平时工作中见得最多的就是ChatGPT和ClaudeBot，特别是ChatGPT，完全可以用疯狂来形容，疯狂的投喂数据，也难怪ChatGPT的模型做得这么好。

国内的见得最多的是Bytedancespider ，Bytedance是哪家大家应该都明白，他们的网络爬虫抓取数据用于训练其 LLM（大型语言模型），所以字节的豆包还是好用的。不过也会浪费我们大量的服务器资源。

其次就是Aliyun，Ali的模型不太熟悉，也没用过。

至于其他国内的就比较少见，包括很火的Deepseek，不知道是不爬国外的站，还是有其他的方法，之前有朋友提过Deepseek的蒸馏算法，具体不太清楚。

常见的AI 爬虫:

anthropic-ai

Applebot-Extended

Bytedancespider

CCBot

ChatGPT

ClaudeBot

cohere-ai

Diffbot

FacebookBot

FriendlyCrawler

Image2dataset

Meta-ExternalAgent

omgilibot

PerplexityBot

Timpibot

二、SEO爬虫

SEO爬虫，大多数是爬外链的，研究网站的SEO数据。竞争对手可以轻松查询到你的SEO数据。

因为平时经常做SEO的工作，所以经常看到的几个爬虫。

MJ12Bot ：Majestic 公司收集外链的爬虫，建议屏蔽。

SemrushBot：Semrush 的爬虫，大名鼎鼎的Semrush估计很多人都知道，除非你使用他们的服务来跟踪自己网站的 SEO 排名和反向链接，否则建议屏蔽。

AhrefsBot ： Ahrefs 的爬虫，除非你使用他们的服务来跟踪自己网站的 SEO 排名和反向链接，否则建议屏蔽。

DotBot: Moz的爬虫，除非你使用他们的服务来跟踪自己网站的 SEO 排名和反向链接，否则建议屏蔽。

另外还有几个偶尔见的SEO爬虫

DataForSeoBot ，这个坚决屏蔽，就是卖你SEO数据的。

Barkrowler

BLEXBot

BacklinksExtendedBot

三、安全扫描爬虫

CensysInspect，Expanse，Internet-measurement

全部屏蔽掉吧。

四、其他机器人和爬虫

Amazonbot 亚马逊的爬虫，据说是用来改进AMZ的服务。也是超级耗流量的，建议删除

PetalBot 华为的爬虫。

Githubbot Github的爬虫

还有一些扫描专利，版权的爬虫。

五、为什么没见过某些搜索引擎的爬虫

有的搜索引擎会带来流量，但没见过爬虫，比如Duckduckgo、Yahoo等。

那是因为Duckduckgo、Yahoo用的Bing的数据。

如何屏蔽爬虫：

最好的两种屏蔽方法：

如果加了CDN，可以在 Cloudflare 的制定防火墙(WAF)规则

如果是自己的VPS，服务器，也可以设置Web 服务器配置（Nginx 或 Apache）阻止爬虫。

并非所有机器人都遵网站的 robots.txt 规则，所以不建议只设置robots.txt

为什么不直接将User-agent添加到 robots.txt 中？

因为你提供的“规则”只是建议，许多恶意机器人都不遵守 robots.txt。所以不建议通过设置robots.txt去阻止某些爬虫的访问。

今天的文章就写到这里，希望对你有帮助。如果觉得写得还行，请帮忙转发，分享。

欢迎找我私聊，欢迎加我交流。

我的vx 6860145 ，不用寒暄，直接开聊。

文章为作者独立观点，不代表DLZ123立场。如有侵权,请联系我们。( 版权为作者所有，如需转载，请联系作者 )

网站运营至今，离不开小伙伴们的支持。为了给小伙伴们提供一个互相交流的平台和资源的对接，特地开通了独立站交流群。群里有不少运营大神，不时会分享一些运营技巧，更有一些资源收藏爱好者不时分享一些优质的学习资料。

现在可以扫码进群，备注【加群】。 ( 群完全免费，不广告不卖课！)

点赞(8) 打赏

本文分类：实战分享
本文标签：无
浏览次数：957 次浏览
发布日期：2025-05-14 08:05:39
原文链接：https://mp.weixin.qq.com/s/rro8p4pyVmEhO7UmLkUXuw

独立站运营中被忽略的重要问题

评论列表共有 0 条评论

发表评论取消回复

独立站运营中被忽略的重要问题

香港众安银行转账汇款干货指南：FPS/支付宝/微信一键操作

（七）Facebook高阶技巧篇：账户、过审、成交链路

如何创建和关联 Google Ads 经理帐户

2万字总结深圳SEO大会

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复