AI Overview(如 Google 的 AI Overview / SGE)之所以 约 90% 倾向引用“大网站”,并不是简单的偏好,而是由 算法、数据、风险控制、以及网页结构等多层“结构性原因”共同造成的。下面是核心机制:
1️⃣ 训练数据结构:大网站在语料中占绝对优势
大模型训练时主要依赖 公开网页数据 + 高质量语料。
现实情况是:
- 维基类:如 Wikipedia
- 大媒体:如 BBC、The New York Times
- 大平台:如 Reddit、Quora
这些网站:
- 内容量巨大
- 被引用次数多
- 在数据集中重复出现
结果:
模型在训练阶段就已经对这些网站“更熟悉”,因此生成答案时更容易引用它们。
这叫 data distribution bias(数据分布偏差)。
2️⃣ 搜索排序系统本来就偏向权威站
AI Overview 不是独立系统,它是建立在 Google 搜索排序之上的。
Google排序长期核心原则:
- E-E-A-T(Experience, Expertise, Authoritativeness, Trustworthiness)
- Domain Authority
- Backlinks
结果就是:
排名靠前的网站往往是:
- Wikipedia
- 大媒体
- 政府网站
- 大品牌站
AI Overview生成摘要时通常:
从 Top search results 抽取信息
因此自然 继承了搜索排名偏向。
3️⃣ 风险控制:AI更“敢”引用大网站
AI Overview涉及法律风险:
如果引用小博客可能:
- 错误信息
- 医疗误导
- 财务建议错误
而引用:
- Mayo Clinic
- World Health Organization
- Harvard University
则:
- 更可信
- 法律风险更低
- 内容审核更容易
因此系统 刻意提高权威源权重。
4️⃣ 技术原因:大网站结构更适合 AI 抽取
AI Overview需要 机器可解析内容。
大网站通常具备:
- 清晰标题结构(H1/H2)
- schema structured data
- FAQ模块
- 高质量段落
例如:
- Wikipedia 的条目结构
- WebMD 的医疗结构化内容
而小站常见问题:
- SEO堆词
- 结构混乱
- 内容短
AI抽取难度更高。
5️⃣ 链接网络效应(Web graph)
互联网是一个 引用网络。
大网站:
- 拥有更多外链
- 被更多站点引用
例如:
- Wikipedia被数百万网站链接。
AI或搜索算法会认为:
被引用越多 → 可信度越高
因此形成 权威网站马太效应。
6️⃣ 评估数据也偏向大网站
Google评估AI质量时会用:
- 人类评估员
- 参考答案数据集
这些参考资料往往来自:
- Wikipedia
- 学术机构
- 大媒体
于是系统被优化为:
更接近这些来源的答案
📊 总结(最关键的结构性原因)
AI Overview偏向大网站主要是 六个系统层原因叠加:
1️⃣ 训练数据偏向大站2️⃣ 搜索排名机制偏向权威站3️⃣ 法律与安全风险控制4️⃣ 大网站更容易被机器解析5️⃣ 网络链接权威效应6️⃣ 评估体系偏向权威资料
最终形成:
AI引用集中在少数大型网站的“结构性偏见”
最近文章
用户搜索行为采集系统搭建指南(GEO时代实战版) 在GEO时代,内容增长的起点已经不是关键词工具,而是用户真实搜索行为数据。 很多网站失败的根源不是内容差,而是: 采集的是假需求 [...]
如何基于用户行为反推内容生产系统(GEO内容工厂架构·深度扩展版) GEO时代,内容生产已经从“编辑部模式”进入“系统工程模式”。 过去的网站增长逻辑是: 多写内容 [...]
不同类型网站(资讯 / 电商 / [...]
