AI Overview(如 Google 的 AI Overview / SGE)之所以 约 90% 倾向引用“大网站”,并不是简单的偏好,而是由 算法、数据、风险控制、以及网页结构等多层“结构性原因”共同造成的。下面是核心机制:

1️⃣ 训练数据结构:大网站在语料中占绝对优势

大模型训练时主要依赖 公开网页数据 + 高质量语料

现实情况是:

  • 维基类:如 Wikipedia
  • 大媒体:如 BBC、The New York Times
  • 大平台:如 Reddit、Quora

这些网站:

  • 内容量巨大
  • 被引用次数多
  • 在数据集中重复出现

结果:

模型在训练阶段就已经对这些网站“更熟悉”,因此生成答案时更容易引用它们。

这叫 data distribution bias(数据分布偏差)


2️⃣ 搜索排序系统本来就偏向权威站

AI Overview 不是独立系统,它是建立在 Google 搜索排序之上的。

Google排序长期核心原则:

  • E-E-A-T(Experience, Expertise, Authoritativeness, Trustworthiness)
  • Domain Authority
  • Backlinks

结果就是:

排名靠前的网站往往是:

  • Wikipedia
  • 大媒体
  • 政府网站
  • 大品牌站

AI Overview生成摘要时通常:

从 Top search results 抽取信息

因此自然 继承了搜索排名偏向


3️⃣ 风险控制:AI更“敢”引用大网站

AI Overview涉及法律风险:

如果引用小博客可能:

  • 错误信息
  • 医疗误导
  • 财务建议错误

而引用:

  • Mayo Clinic
  • World Health Organization
  • Harvard University

则:

  • 更可信
  • 法律风险更低
  • 内容审核更容易

因此系统 刻意提高权威源权重


4️⃣ 技术原因:大网站结构更适合 AI 抽取

AI Overview需要 机器可解析内容

大网站通常具备:

  • 清晰标题结构(H1/H2)
  • schema structured data
  • FAQ模块
  • 高质量段落

例如:

  • Wikipedia 的条目结构
  • WebMD 的医疗结构化内容

而小站常见问题:

  • SEO堆词
  • 结构混乱
  • 内容短

AI抽取难度更高。


5️⃣ 链接网络效应(Web graph)

互联网是一个 引用网络

大网站:

  • 拥有更多外链
  • 被更多站点引用

例如:

  • Wikipedia被数百万网站链接。

AI或搜索算法会认为:

被引用越多 → 可信度越高

因此形成 权威网站马太效应


6️⃣ 评估数据也偏向大网站

Google评估AI质量时会用:

  • 人类评估员
  • 参考答案数据集

这些参考资料往往来自:

  • Wikipedia
  • 学术机构
  • 大媒体

于是系统被优化为:

更接近这些来源的答案


📊 总结(最关键的结构性原因)

AI Overview偏向大网站主要是 六个系统层原因叠加

1️⃣ 训练数据偏向大站2️⃣ 搜索排名机制偏向权威站3️⃣ 法律与安全风险控制4️⃣ 大网站更容易被机器解析5️⃣ 网络链接权威效应6️⃣ 评估体系偏向权威资料

最终形成:

AI引用集中在少数大型网站的“结构性偏见”

最近文章