Skip to content
Lyirs的小屋
搜索文档
K
Main Navigation
首页
主题
菜单
回到顶部
页面导航
数据污染
数据污染或训练测试污染,指测试集、开发集或与之高度相似的数据在预训练或微调过程中被模型见过,从而让评测结果虚高。
核心概念
污染可以发生在预训练、指令微调、偏好数据甚至检索知识库中。
常见排查方法包括去重、n-gram overlap 检测、近重复搜索、clean subset 评估。
有些污染是“题目原文出现过”,有些则是“同模板、同答案模式反复出现”。
代码 benchmark、问答 benchmark、网页来源数据特别容易受到污染影响。