Skip to content

解码策略

训练好的语言模型只给出“下一个 token 的概率分布”,真正输出什么,还要由解码策略决定。生成质量、稳定性和多样性,很多时候都不是模型参数本身决定的,而是解码决定的。

核心概念

  • greedy:每一步取最大概率 token,稳定但保守。
  • beam search:保留多条候选路径,适合翻译、摘要等目标更明确的任务。
  • top-k:只在最高概率的 k 个 token 中采样;top-p:在累计概率达到 p 的候选集中采样。
  • temperature 控制分布平滑程度,越高越随机,越低越保守。
  • 代码与数学任务常会配合 pass@kself-consistencybest-of-n 报结果。