Skip to content

数据污染

数据污染或训练测试污染,指测试集、开发集或与之高度相似的数据在预训练或微调过程中被模型见过,从而让评测结果虚高。

核心概念

  • 污染可以发生在预训练、指令微调、偏好数据甚至检索知识库中。
  • 常见排查方法包括去重、n-gram overlap 检测、近重复搜索、clean subset 评估。
  • 有些污染是“题目原文出现过”,有些则是“同模板、同答案模式反复出现”。
  • 代码 benchmark、问答 benchmark、网页来源数据特别容易受到污染影响。