数据污染

数据污染或训练测试污染，指测试集、开发集或与之高度相似的数据在预训练或微调过程中被模型见过，从而让评测结果虚高。

核心概念

污染可以发生在预训练、指令微调、偏好数据甚至检索知识库中。
常见排查方法包括去重、n-gram overlap 检测、近重复搜索、clean subset 评估。
有些污染是“题目原文出现过”，有些则是“同模板、同答案模式反复出现”。
代码 benchmark、问答 benchmark、网页来源数据特别容易受到污染影响。