模型评测
不同任务的输出形式不同,评测指标也完全不同。语言建模常看 perplexity,分类看 accuracy/F1,抽取式问答看 EM/F1,翻译看 BLEU,摘要看 ROUGE,代码生成常看 pass@k。
核心概念
Perplexity反映模型对测试序列的平均困惑度,越低通常越好,但它与开放对话体验不总是线性相关。Accuracy适合单标签分类;F1更适合类别不均衡或抽取任务。EM要求答案完全一致;BLEU强调 n-gram 精确匹配;ROUGE更偏召回。- 代码生成里
pass@k表示生成 k 次时至少有一次通过测试的概率。 - 现代对话评测还会出现
win rate、judge model score、human preference。