本文是 Shaun Anderson 基于 Google 在 2024 年泄漏的内容数据仓库的逆向分析,纯粹是他的深度分析推理得来,并非官方公布,所以并不是完全准确,仅供参考; 对于 2024 年的内容数据仓库泄漏,Google 的 态度是“不否认”,并说该文档“脱离背景,过时或不完整”,当时我也对这个文档做了分析说明《Google搜索内部文档遭泄露 一万多个排名特征曝光》; 在 2025 年 2 月的 Google 反垄断诉讼中,美国司法部提到了这个文件,“Google 文件泄漏,列出了 Google 排名的某些组成部分,但文件并未详细说明曲线和阈值”,再次证明了这份文件的真实性 这次的逆向分析,是结合 Google 提到的核心流程和系统,有一些是 Google 说过的,也有一些是没说过的,甚至否认的,所以对了解实际的核心流程、排序实现非常有帮助; 从分析来看,Google 整个系统非常复杂和完善,会考察网站的内容、技术,以及用户体验,并随着时间来长期调整,因此对 SEO 来讲,长期主义和价值主义的白帽 SEO 更值得投入,这也是作者深度分析的初衷 可以把它看作某个 URL 的“文件夹”。它汇集了关于该网页的所有已知信息,从核心内容到链接特征及质量评分。它是 Google 系统中每个 URL 的基础数据对象。 在 CompositeDoc 内部,最关键的组成部分就是 PerDocData 模型,这是每个 URL 的全部数据记录,比如页面内容因素、质量得分、垃圾内容信号、实效性指标,以及用户参与数据等,并在排名阶段被调用。 这是一个高度优化的“速查表”,包含了网页最核心的一组指标,如站点权重 siteAuthority、熊猫降级指标 pandaDemotion 和 navDemotion。 它的目的是让 Google 的 Mustang 和 TeraGoogle 等排名系统在极度有限的内存条件下能够快速完成初步排名。 这个指标非常关键,因为代表了网页最核心也最基础的指标,而且只有在初始排名阶段胜出,在会在下一个阶段“重新排名”时稳定和提升排名。 对 SEO 的启发: 这次分析带来的最基本的认知就是,Google 算法并非单一、庞大的指标组成,而是更加复杂:由多个分工明确、相互连接的系统组成,并在流程中相互配合。 以下是排名流程中的系统和相关指标: 这个多阶段架构说明,Google 排序过程远比简单的指标计算要复杂得多。 一个网页要想获得曝光和排名,必须先凭借基础指标通过 Mustang 的初排;随后还需要在 NavBoost 等重新排序阶段通过真实用户互动来证明自己的价值;与此同时,这个网页还要在由 Glue 和 Tangram 组装的模块化搜索结果页中争夺曝光空间。 我们知道用户点击和用户体验在排名中占据重要地位,不过 NavBoost 系统的曝光,让我们知道了更具体的细节。 NavBoost 中的几个关键指标: goodClicks(优质点击):用户点击后表现出满意的点击。 badClicks(劣质点击):用户快速返回搜索结果页的点击,代表不满意的点击。 lastLongestClicks(最后一次长停留点击):被认为是最强的正面信号,它指的是用户在结束搜索前最后一次长时间停留的点击。 unsquashedClicks(通过验证的点击):可能表示通过验证的有效点击,而非垃圾或机器流量。 所以说,传统 SEO 方法,如标题设置、外链建设等可以帮你获得初始排名,但良好的用户体验才能借助 NavBoost 系统在重新排序阶段胜出,获得长期稳定的排名。 Google 通过以下几个指标来衡量整个网站和网页的可信度、权威度和声誉: siteAuthority(站点权重值):这是整个网站的权重指标,很可能是之前 PageRank 的迭代指标,就是 SEO 日常说的“权重值” siteFocusScore(站点专注度评分):衡量网站的主题专注度,得分越高说明网站越专注在特定领域,也证实了垂类网站会获得特定领域的权重积累 siteRadius(网站主题半径评分):衡量了某网页主题与整站核心主题的偏离程度 hostAge(域名年龄):这是一个简单又基础的指标,存储了网站首次抓取的日期,会用来评估网站稳定性,也用于新网站的沙盒处理 用于量化网页的原创度、内容质量和投入程度: OriginalContentScore(原创内容评分):衡量页面内容原创度的评分 contentEffort(内容投入度):估算内容投入成本的指标,也是实用算法更新的核心指标,因为 Google 提到过:优质内容肯定是经过人工验证和编辑,消耗了一定的时间和内容成本,这个指标和内容质量呈正相关 pandaDemotion(熊猫算法降权):衡量网站的低质量程度,也是熊猫算法的常规版和持续版,用于惩罚低质量或重复内容比例高的网站 衡量负面用户体验、干扰信号的指标。这是几个负面指标,用户体验较差会直接引起处罚。 clutterScore(页面杂乱度评分):网站级惩罚信号,用于检测“明显干扰和强制性体验”,比如广告或弹窗过多;如果部分网页出现这个指标过高,也会扩散影响到整个网站 navDemotion(导航降级评分):标注为“导航不良或用户体验差”的网站降权信号 移动端惩罚(Mobile Penalties):SmartphonePerDocData 模块包含移动端体验相关的处罚标志,如 violatesMobileInterstitialPolicy(侵入式弹窗)和 adsDensityInterstitialViolationStrength(广告密度过高) 衡量网页元素是否与内容主题和搜索意图匹配。 titlematchScore(标题匹配评分):计算页面标题与正文内容匹配度的指标,说明了标题在内容表达上的重要作用 ugcDiscussionEffortScore(UGC互动投入度评分):位于 CompressedQualitySignals 模块,用于衡量用户讨论或评论的质量与投入度。良好的评论区互动会成为正面信号 Google 说过,E-E-A-T 是衡量内容质量的方向,不是排名因素,也没有特定的 E-E-A-T 得分,从这份文档来看,确实没有一个特定的 EEAT 得分,不过有很多指标都在考察 E-E-A-T 的 4 个方面,这是梳理后的几个方面: 经验是 E-E-A-T 中最后加入的指标,是指内容创作者对主题具备第一手、真实世界的体验。比如,一篇由实际购买并使用过 iphone 17 的用户撰写的评测,其经验价值远高于从苹果官网汇总产品参数的评测。 这几个指标在重点考察“经验”环节: contentEffort(内容投入度),Google 一直强调好的内容肯定是需要花费一定时间和心血才能产出;相反的,批量生成出来的、泛泛而谈的 AI 内容会被认为是缺乏实际经验,质量较低的 originalContentScore(原创内容评分),原创内容并不一定都是好的,但好的内容一定是原创的,且具备独特见解,亲身经历的细节和第一手的经历 isAuthor 与 author(是否为作者 / 作者身份):Google 会识别作者的身份;如果某位作者持续产出高质量、原创的内容,系统就会构建一个特定的作者档案,比如刘慈欣 lastSignificantUpdate(最近重大更新时间):说明对内容进行必要的更新和编辑,可以提升内容质量,也说明 Google 能够区分微小与重大的内容更新 文档图片分析(docImages):对内容中图片的详细分析,原创且主题相关的图片可作为第一手经验的证据,强化内容的可信 垂直领域专项信号:针对特定行业,Google 使用更细粒度的信号。例如,productReviewPUhqPage(超高质产品评测页面) 信号用于识别那些展现出深度、第一手使用与测试经验的卓越产品评测 对 SEO 的启发: 专业性是考察网站或网页内容在特定领域所具备的知识深度和技能水平,更侧重在可验证的知识与资质。 跟专业性有关的考察指标有: 对 SEO 的启发:垂直细分网站在传递“专业性”信号方面,会具有明显的优势。 权威性是成为行业内被广泛认可、被他人引用和信赖的信息来源,他衡量的是一个网站或品牌在特定行业中的声誉与地位。这份内部文件证实,Google 通过一个整站维度、与搜索词无关的 Q*(质量)评分来衡量权威度。 综上,权威性不仅依赖外部引用(如链接),更由品牌实体、作者身份、历史表现及算法对“官方性”的认定共同构建。建立权威需长期积累高质量信号,并在特定领域成为被系统识别为“首选来源”的存在。 可信度是 E-E-A-T 最重要的指标,建立在内容质量、用户正向反馈和技术可信度的基础上。通过内部指标表明,可信度会因来自 SpamBrain 等系统的大量惩罚性负面信号而被削弱。 对 SEO 的启发:可信度并非静态属性。它以技术安全为根基,通过正向用户行为加以验证,并对本地实体而言,还需通过可验证的线下世界资质与可靠性加以巩固。 整体来看,E-E-A-T 的四个维度并非孤立评估,它们相互关联,共同构成一个相互关联的算法系统。如下面例子: 这表明 E-E-A-T 是一个整体性、相互依存的系统,而非简单的排名因素的叠加。 通过对此次泄露文档的深度分析,我们得以窥见 Google 复杂的、多系统联动的排名机制。它清晰地表明,SEO 的成功不再是单一因素的胜利,而是技术基础、内容质量、用户体验和长期权威积累的综合体现。 我看完之后也有一些当下的启发,并不完善,也分享出来: 基于这些分析,我也整理了一份马上能用的 SEO 检查清单,可检查下自己网站是否存在以下问题,以及这些优化项目是否已实现。 Trawler 系统效率 badSslCertificate forwardingdup ContentChecksum96 Mobile Penalties originalContentScore docImages isAuthor siteFocusScore siteRadius contentEffort ymylHealthScore pandaDemotion brickAndMortarStrength GoodClicks BadClicks clutterScore navDemotion ugcDiscussionEffortScore siteAuthority PageRank authorObfuscatedGaiaStr queriesForWhichOfficial isLargeChain siteSiblings
背景和声明
核心数据结构
CompositeDoc(复合文档)
PerDocData(文档数据)
CompressedQualitySignals(压缩的质量指标)
排名流程的解构

NavBoost:用户投票占主导地位
核心指标
权威度和信任度的指标
内容质量和实用性指标
用户体验和干扰信号
网页的相关性指标
E-E-A-T 解析

E - 经验(Experience)
E – 专业性(Expertise)
A – 权威性(Authoritativeness)
T – 可信度(Trust)
对我的启发
检查清单
参考文档
文章为作者独立观点,不代表DLZ123立场。如有侵权,请联系我们。( 版权为作者所有,如需转载,请联系作者 )
网站运营至今,离不开小伙伴们的支持。 为了给小伙伴们提供一个互相交流的平台和资源的对接,特地开通了独立站交流群。
群里有不少运营大神,不时会分享一些运营技巧,更有一些资源收藏爱好者不时分享一些优质的学习资料。
现在可以扫码进群,备注【加群】。 ( 群完全免费,不广告不卖课!)

发表评论 取消回复