解码策略

训练好的语言模型只给出“下一个 token 的概率分布”，真正输出什么，还要由解码策略决定。生成质量、稳定性和多样性，很多时候都不是模型参数本身决定的，而是解码决定的。

核心概念

greedy：每一步取最大概率 token，稳定但保守。
beam search：保留多条候选路径，适合翻译、摘要等目标更明确的任务。
top-k：只在最高概率的 k 个 token 中采样；top-p：在累计概率达到 p 的候选集中采样。
temperature 控制分布平滑程度，越高越随机，越低越保守。
代码与数学任务常会配合 pass@k、self-consistency、best-of-n 报结果。