主题
对齐范式关注的不是模型是否知道答案,而是模型是否更符合人类偏好、拒答策略、格式要求与安全边界。RLHF、DPO、GRPO 是近年最常见的对齐训练路线。
RLHF
DPO
(chosen, rejected)
GRPO