Skip to content

模型评测

不同任务的输出形式不同,评测指标也完全不同。语言建模常看 perplexity,分类看 accuracy/F1,抽取式问答看 EM/F1,翻译看 BLEU,摘要看 ROUGE,代码生成常看 pass@k。

核心概念

  • Perplexity 反映模型对测试序列的平均困惑度,越低通常越好,但它与开放对话体验不总是线性相关。
  • Accuracy 适合单标签分类;F1 更适合类别不均衡或抽取任务。
  • EM 要求答案完全一致;BLEU 强调 n-gram 精确匹配;ROUGE 更偏召回。
  • 代码生成里 pass@k 表示生成 k 次时至少有一次通过测试的概率。
  • 现代对话评测还会出现 win ratejudge model scorehuman preference