Skip to content

对齐范式

对齐范式关注的不是模型是否知道答案,而是模型是否更符合人类偏好、拒答策略、格式要求与安全边界。RLHF、DPO、GRPO 是近年最常见的对齐训练路线。

核心概念

  • RLHF 常见流程是:先做 SFT,再训练 reward model,然后用 PPO 等强化学习方法优化策略。
  • DPO 直接使用偏好对 (chosen, rejected) 优化,不显式训练奖励模型,流程更简洁。
  • GRPO 等方法尝试在群组比较、相对优势和训练稳定性上做改进。
  • 对齐数据通常不是知识真值,而是“哪种回答更符合偏好”的比较式数据。
  • 评价对齐效果时,经常会用 win rate、偏好胜率、人工评审和对话基准。