主题
训练好的语言模型只给出“下一个 token 的概率分布”,真正输出什么,还要由解码策略决定。生成质量、稳定性和多样性,很多时候都不是模型参数本身决定的,而是解码决定的。
greedy
beam search
top-k
top-p
temperature
pass@k
self-consistency
best-of-n