模型评测

不同任务的输出形式不同，评测指标也完全不同。语言建模常看 perplexity，分类看 accuracy/F1，抽取式问答看 EM/F1，翻译看 BLEU，摘要看 ROUGE，代码生成常看 pass@k。

核心概念

Perplexity 反映模型对测试序列的平均困惑度，越低通常越好，但它与开放对话体验不总是线性相关。
Accuracy 适合单标签分类；F1 更适合类别不均衡或抽取任务。
EM 要求答案完全一致；BLEU 强调 n-gram 精确匹配；ROUGE 更偏召回。
代码生成里 pass@k 表示生成 k 次时至少有一次通过测试的概率。
现代对话评测还会出现 win rate、judge model score、human preference。