AI Overview(如 Google 的 AI Overview / SGE)之所以 约 90% 倾向引用“大网站”,并不是简单的偏好,而是由 算法、数据、风险控制、以及网页结构等多层“结构性原因”共同造成的。下面是核心机制:
1️⃣ 训练数据结构:大网站在语料中占绝对优势
大模型训练时主要依赖 公开网页数据 + 高质量语料。
现实情况是:
- 维基类:如 Wikipedia
- 大媒体:如 BBC、The New York Times
- 大平台:如 Reddit、Quora
这些网站:
- 内容量巨大
- 被引用次数多
- 在数据集中重复出现
结果:
模型在训练阶段就已经对这些网站“更熟悉”,因此生成答案时更容易引用它们。
这叫 data distribution bias(数据分布偏差)。
2️⃣ 搜索排序系统本来就偏向权威站
AI Overview 不是独立系统,它是建立在 Google 搜索排序之上的。
Google排序长期核心原则:
- E-E-A-T(Experience, Expertise, Authoritativeness, Trustworthiness)
- Domain Authority
- Backlinks
结果就是:
排名靠前的网站往往是:
- Wikipedia
- 大媒体
- 政府网站
- 大品牌站
AI Overview生成摘要时通常:
从 Top search results 抽取信息
因此自然 继承了搜索排名偏向。
3️⃣ 风险控制:AI更“敢”引用大网站
AI Overview涉及法律风险:
如果引用小博客可能:
- 错误信息
- 医疗误导
- 财务建议错误
而引用:
- Mayo Clinic
- World Health Organization
- Harvard University
则:
- 更可信
- 法律风险更低
- 内容审核更容易
因此系统 刻意提高权威源权重。
4️⃣ 技术原因:大网站结构更适合 AI 抽取
AI Overview需要 机器可解析内容。
大网站通常具备:
- 清晰标题结构(H1/H2)
- schema structured data
- FAQ模块
- 高质量段落
例如:
- Wikipedia 的条目结构
- WebMD 的医疗结构化内容
而小站常见问题:
- SEO堆词
- 结构混乱
- 内容短
AI抽取难度更高。
5️⃣ 链接网络效应(Web graph)
互联网是一个 引用网络。
大网站:
- 拥有更多外链
- 被更多站点引用
例如:
- Wikipedia被数百万网站链接。
AI或搜索算法会认为:
被引用越多 → 可信度越高
因此形成 权威网站马太效应。
6️⃣ 评估数据也偏向大网站
Google评估AI质量时会用:
- 人类评估员
- 参考答案数据集
这些参考资料往往来自:
- Wikipedia
- 学术机构
- 大媒体
于是系统被优化为:
更接近这些来源的答案
📊 总结(最关键的结构性原因)
AI Overview偏向大网站主要是 六个系统层原因叠加:
1️⃣ 训练数据偏向大站2️⃣ 搜索排名机制偏向权威站3️⃣ 法律与安全风险控制4️⃣ 大网站更容易被机器解析5️⃣ 网络链接权威效应6️⃣ 评估体系偏向权威资料
最终形成:
AI引用集中在少数大型网站的“结构性偏见”
最近文章
AI Overview(如 Google 的 AI [...]
一、AI搜索排名系统的整体结构 在传统搜索中,排名流程是: Query↓Index Retrieval↓Ranking↓SERP [...]
一、AI Overview 引用机制的整体流程 AI [...]
