很多独立站在运营中都忽略了一个至关重要的问题。
爬虫(也叫BOT ,Crawler)

根据对我们是否有用,可以把爬虫分为两类,从搜索引擎来的爬虫,比如Google bot ,Bing bot ,这些爬虫的作用是爬取网站的内容,收录内容到搜索引擎,这些爬虫对网站的流量是有好处的,可以理解为好的,是“益虫”。

那坏的爬虫就是AI爬虫,SEO爬虫,漏洞扫描爬虫等。坏的爬虫会占用服务器的CPU和内存资源,而网站却得不到任何好处。有的爬虫会爬取你的网站信息,做出一样的网站,也可能研究你的资料,然后出售给你的竞争对手。

让我来一一说明:

如果运行的是VPS或者服务器,你就会知道 CPU 、内存资源和网络带宽都很宝贵,它们是你网站飞速运行的保障。

想象一下,当你打开网站的访问日志,发现每2-3秒访问你网站的都是爬虫,而且是无用的爬虫,这些爬虫机器人吃掉你网站的CPU和带宽,你的网站打开越来越慢,甚至影响了Google ,Bing等搜索引擎的爬虫的正常工作。

如果使用的是共享主机,那就更不用说了,本来硬件资源就得不到保障,还被爬虫浪费了.....

也行你会说,还好我是用的SAAS建站。(类似Shopify,YY等电商建站系统)。

那你的产品内容,你的博客文章、图片和视频也会被人工智能公司抓取并抄袭。这些公司会用抓取的内容来训练他们的大型语言模型 (LLM),这样其他人就能轻松地制作出与你内容相似的内容

更重要的是,像 Ahrefs 和 SEMrush 这样的 SEO 公司会抓取你的网站,发掘你的外链情况,并将这些信息出售给你的竞争对手,出售给那些希望在搜索引擎上超越你的企业....

还有一些漏洞扫描的爬虫它们都是恶意的,探测你服务器和网站的漏洞,黑掉你的服务器或者更改你网站的内容(挂外链等)....

恶意机器人列表:

一、AI 爬虫

前面说了,现在很多AI公司会抓取的内容来训练他们的大型语言模型 (LLM)。平时工作中见得最多的就是ChatGPT和ClaudeBot,特别是ChatGPT,完全可以用疯狂来形容,疯狂的投喂数据,也难怪ChatGPT的模型做得这么好。

国内的见得最多的是Bytedancespider ,Bytedance是哪家大家应该都明白,他们的网络爬虫抓取数据用于训练其 LLM(大型语言模型),所以字节的豆包还是好用的。不过也会浪费我们大量的服务器资源。

其次就是Aliyun,Ali的模型不太熟悉,也没用过。

至于其他国内的就比较少见,包括很火的Deepseek,不知道是不爬国外的站,还是有其他的方法,之前有朋友提过Deepseek的蒸馏算法,具体不太清楚。

常见的AI 爬虫:

anthropic-ai

Applebot-Extended

Bytedancespider

CCBot

ChatGPT

ClaudeBot

cohere-ai

Diffbot

FacebookBot

FriendlyCrawler

Image2dataset

Meta-ExternalAgent

omgilibot

PerplexityBot

Timpibot

二、SEO爬虫

SEO爬虫,大多数是爬外链的,研究网站的SEO数据。竞争对手可以轻松查询到你的SEO数据。

因为平时经常做SEO的工作,所以经常看到的几个爬虫。

MJ12Bot :Majestic 公司收集外链的爬虫,建议屏蔽。

SemrushBot:Semrush 的爬虫,大名鼎鼎的Semrush估计很多人都知道,除非你使用他们的服务来跟踪自己网站的 SEO 排名和反向链接,否则建议屏蔽。

AhrefsBot :  Ahrefs 的爬虫,除非你使用他们的服务来跟踪自己网站的 SEO 排名和反向链接,否则建议屏蔽。

DotBot:  Moz的爬虫,除非你使用他们的服务来跟踪自己网站的 SEO 排名和反向链接,否则建议屏蔽。

另外还有几个偶尔见的SEO爬虫

DataForSeoBot , 这个坚决屏蔽,就是卖你SEO数据的。

Barkrowler 

BLEXBot

BacklinksExtendedBot

三、安全扫描爬虫

CensysInspect,Expanse,Internet-measurement

全部屏蔽掉吧。

四、其他机器人和爬虫

Amazonbot   亚马逊的爬虫,据说是用来改进AMZ的服务。也是超级耗流量的,建议删除
PetalBot 华为的爬虫。
Githubbot Github的爬虫
还有一些扫描专利,版权的爬虫。
五、为什么没见过某些搜索引擎的爬虫
有的搜索引擎会带来流量,但没见过爬虫,比如Duckduckgo、Yahoo等。
那是因为Duckduckgo、Yahoo用的Bing的数据。
如何屏蔽爬虫:
最好的两种屏蔽方法:

如果加了CDN,可以在 Cloudflare 的制定防火墙(WAF)规则

如果是自己的VPS,服务器,也可以设置Web 服务器配置(Nginx 或 Apache)阻止爬虫。

并非所有机器人都遵网站的 robots.txt 规则,所以不建议只设置robots.txt

为什么不直接将User-agent添加到 robots.txt 中?

因为你提供的“规则”只是建议,许多恶意机器人都不遵守 robots.txt。所以不建议通过设置robots.txt去阻止某些爬虫的访问。

今天的文章就写到这里,希望对你有帮助。如果觉得写得还行,请帮忙转发,分享。
欢迎找我私聊,欢迎加我交流。
我的vx 6860145 ,不用寒暄,直接开聊。



点赞(8) 打赏

评论列表 共有 0 条评论

暂无评论

服务号

订阅号

备注【拉群】

商务洽谈

微信联系站长

发表
评论
立即
投稿
返回
顶部