对齐范式

对齐范式关注的不是模型是否知道答案，而是模型是否更符合人类偏好、拒答策略、格式要求与安全边界。RLHF、DPO、GRPO 是近年最常见的对齐训练路线。

核心概念

RLHF 常见流程是：先做 SFT，再训练 reward model，然后用 PPO 等强化学习方法优化策略。
DPO 直接使用偏好对 (chosen, rejected) 优化，不显式训练奖励模型，流程更简洁。
GRPO 等方法尝试在群组比较、相对优势和训练稳定性上做改进。
对齐数据通常不是知识真值，而是“哪种回答更符合偏好”的比较式数据。
评价对齐效果时，经常会用 win rate、偏好胜率、人工评审和对话基准。