上一篇讲了用 Ctrl+U 查看页面源代码,这是最直接的方式,但有一个局限:它验证的是"服务器给所有人返回的HTML",无法模拟特定爬虫身份。

有些网站会根据请求者的身份返回不同内容,比如识别到爬虫后返回完整SSR,识别到普通用户后返回CSR版本。Ctrl+U无法区分这种情况。

这时候需要用curl命令,直接模拟爬虫身份发请求。

curl命令的基本格式

curl是Windows和Mac系统自带的命令行工具,不需要安装。


Windows用户

按 Win+R,输入 cmd,回车,打开命令提示符,输入:


curl -A "爬虫UA字符串" https://目标页面URL | findstr "目标文案关键词"


Mac用户

按 Command+空格,输入"终端",回车,输入:


curl -A "爬虫UA字符串" https://目标页面URL | grep "目标文案关键词"


命令里三个部分的作用:

部分

作用

说明

-A "UA字符串"

模拟爬虫身份

告诉服务器"我是XXX爬虫"

https://目标URL

请求的页面

填入你要验证的页面地址

findstr / grep "文案"

在返回HTML里搜索

找到则爬虫可见,找不到则不可见


主要爬虫的UA字符串

SEO爬虫


# GooglebotMozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

# BingbotMozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)


AI爬虫


GPTBot/1.0           # ChatGPT / OpenAIClaudeBot/1.0        # Claude / AnthropicPerplexityBot/1.0    # Perplexity AIAmazonbot/0.1        # Amazon AlexaApplebot/0.1         # Apple / Siri


完整命令示例

模拟Googlebot请求列表页


curl -A "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" https://你的域名/列表页URL | findstr "FAQ关键词"


模拟GPTBot请求文章页


curl -A "GPTBot/1.0" https://你的域名/文章页URL | findstr "正文关键词"


关键词怎么选

从页面正文或FAQ中选取5-10个连续的特征词,不要选标题或meta description里的词,那些通常在SSR里,选了验不出问题。


如何判断结果

结果

说明

下一步

有文案输出

✅ 该爬虫能抓到这段内容

正常,继续测试其他爬虫或页面

没有任何输出

❌ 该爬虫看不到这段内容

排查是白名单问题还是SSR未渲染

出现FINDSTR写入错误

正常现象,不影响判断

看提示前后有无文案行输出


建立验证矩阵

建议每次技术改动上线后,按以下矩阵完整测试,填写✅或❌:


爬虫

首页

列表页

商品页

文章页

Googlebot(SEO)





Bingbot(SEO)





GPTBot(AI)





ClaudeBot(AI)





PerplexityBot(AI)





普通用户(对照)






重要原则

不能依赖技术团队的口头确认。curl命令的输出结果是目前最客观、最直接的爬虫可见性验证手段。有截图,有结果。


下一篇预告

验证完发现问题了,该怎么跟技术沟通?SSR+CSR混合渲染方案到底有哪些风险?下一篇详细拆解。

相关文章:
服务器端渲染VS客户端渲染,哪个对SEO更友好?
爬虫看到的,和你看到的不一样-关于SSR、CSR和爬虫可见性的基础认知


点赞(3) 打赏

评论列表 共有 0 条评论

暂无评论

服务号

订阅号

备注【拉群】

商务洽谈

微信联系站长

发表
评论
立即
投稿
返回
顶部