一、问题定义与约束条件

在 ChatGPT、Claude 等生成式系统中,回答生成过程基于RAG(Retrieval-Augmented Generation)或内部知识混合机制。该过程存在三个可观测特征:

  1. 输出文本通常经过语义重写,原始句法结构被改变
  2. 引用标注为非强制行为,部分平台默认不展示来源
  3. 单一回答可能融合多个候选来源,来源贡献不可直接观测

因此,“是否被引用”不能依赖URL或显式citation判断,必须通过内容层相似性进行反向推断。

系统目标可以形式化为:

Given:
A = AI生成文本
C = 网站内容集合

Find:
argmax similarity(A, Ci)

并在此基础上判断:

  • 是否存在引用(binary classification)
  • 引用来源(top-k匹配)
  • 引用强度(连续值评分)

该问题本质属于跨文本语义匹配与归因问题(Text Attribution under Transformation)


二、系统目标形式化定义

系统输出需满足三个层级:


1. 引用存在性判定(Existence Detection)

目标为判断AI输出是否包含来源内容信息:

P(citation | A, C) > threshold

该概率可通过相似度分布统计获得。阈值需通过验证集标定(通常0.6–0.75区间)。


2. 来源定位(Source Localization)

在候选集合中找到最可能来源:

Ci = argmax(similarity(A, Ci))

需支持Top-K输出,以应对多来源融合情况。


3. 引用强度量化(Attribution Strength)

定义为:

strength = f(semantic_similarity, lexical_overlap, structural_alignment)

输出连续值(0–1),用于区分直接引用与语义借用。


三、系统架构设计

系统采用离线指纹构建 + 在线匹配推断的双阶段结构:

Content Ingestion
→ Passage Segmentation
→ Fingerprint Generation
→ Vector Indexing
→ AI Response Collection
→ Passage Matching
→ Attribution Scoring
→ Metrics Aggregation

关键设计点:

  • 内容与AI输出均需统一切分为“passage级单位”
  • 指纹必须支持语义不变性(semantic invariance)
  • 匹配需支持大规模近似搜索(ANN)

四、指纹体系设计(三层结构)

单一指纹无法覆盖所有变形情况,必须组合多种特征。


1. 文本指纹(Lexical Fingerprint)

基于局部词序列的统计特征:

ngram = tokenize(text, n=3~5)
hash = simhash(ngram)

适用于检测:

  • 原文复制
  • 轻度改写

局限性:

  • 对同义改写敏感
  • 对句法重排鲁棒性差

验证方式:

  • 对原文进行同义词替换测试
  • 观察匹配率下降程度

2. 语义指纹(Semantic Fingerprint)

通过embedding表示文本语义:

vector = embedding(text)
similarity = cosine(A, B)

该方法对以下变换具有稳定性:

  • 同义表达
  • 句法重组
  • 段落压缩

关键约束:

  • 必须使用同一embedding模型(避免空间不一致)
  • 向量需归一化处理

验证方式:

  • 构造改写数据集(paraphrase dataset)
  • 测试相似度分布

该层为系统核心,通常贡献超过50%的判定能力。


3. 结构指纹(Structural Fingerprint)

描述信息组织方式:

pattern = [definition, explanation, list, conclusion]

实现方法:

  • 规则抽取(基于句式)
  • 分类模型(识别段落类型)

适用于检测:

  • 内容重组
  • 多来源拼接

局限性:

  • 对短文本无效
  • 需结合语义层使用

验证方式:

  • 打乱段落顺序
  • 测试结构相似度变化

五、数据模型设计


Content Block 表

id
url
content
type

说明:

  • type用于分类(FAQ/definition等)
  • content需标准化(去HTML、统一编码)

Fingerprint 表

content_id
text_hash
semantic_vector
structure_pattern

说明:

  • semantic_vector存储高维向量
  • 可使用向量数据库(FAISS/Milvus)

Response 表

query
platform
response_text
timestamp

说明:

  • response需分段存储
  • 支持多轮采样

Match 表

response_id
content_id
similarity_score
match_type

说明:

  • match_type为分类标签
  • 支持多来源匹配

六、相似度融合模型

单一指标不具备稳定性,需加权融合:

Score =
0.5 * semantic_similarity
+ 0.3 * lexical_similarity
+ 0.2 * structural_similarity

权重确定方法:

  • 构建标注数据集
  • 使用回归或网格搜索优化

验证方法:

  • Precision / Recall / F1
  • ROC曲线

七、引用判定标准

基于经验分布设定阈值:


强引用

score > 0.85

特征:

  • 高语义一致性
  • 存在文本重叠

改写引用

0.65 < score ≤ 0.85

特征:

  • 语义一致
  • 表达不同

弱引用

0.5 < score ≤ 0.65

特征:

  • 局部信息一致
  • 可能来源混合

阈值需根据领域数据进行校准。


八、执行流程与计算优化


标准流程

1. 内容切分(50–150词)
2. 指纹生成
3. 建立向量索引
4. 收集AI输出
5. 输出切分
6. ANN检索候选
7. 精排计算相似度
8. 判定引用

性能优化

大规模数据需使用近似搜索:

  • FAISS(本地高性能)
  • Milvus(分布式)

计算复杂度从:

O(N)

降为:

O(log N)

九、系统验证方法


1. 构造测试集

  • 原文引用
  • 改写引用
  • 非相关文本

2. 指标

  • Precision(精确率)
  • Recall(召回率)
  • F1 Score

3. 稳定性测试

  • 多次调用AI生成
  • 统计结果方差

4. 对抗测试

  • 强改写(paraphrase)
  • 信息压缩

十、系统边界与局限


1. 多来源混合

无法精确分配贡献比例,只能识别候选集合。


2. 极端改写

当语义压缩过强(如总结性回答),相似度下降。


3. embedding偏差

不同模型输出空间不同,需统一模型。


4. 长文本稀释

长段落会降低匹配精度,必须分块处理。


十一、核心结论

该系统本质是一个:

基于语义匹配的内容归因系统

其目标不是确定“唯一来源”,而是估计:

P(内容来自某来源)

十二、关键判断标准

系统有效的标志:

  1. 对原文引用检测率 > 95%
  2. 对改写引用检测率 > 80%
  3. 误报率 < 10%

十三、最终结论

在生成式搜索环境中:

  • 内容传播路径:网站 → AI → 用户
  • 引用行为:隐式且不可见
  • 监控手段:必须依赖语义归因

系统建设的核心不是“识别文本相同”,而是:

在语义变换条件下,识别信息来源的一致性

最近文章

GSC AI分析功能更新解读

GSC AI分析功能更新解读:从报表工具到问题建模系统 一、更新定义与范围界定 Google [...]