DPO

RLHF 正在经历范式转移。本文从 PPO 到 DPO（直接偏好优化）的数学推导入手，说明 DPO 如何借助解析解绕过显式奖励模型；再讨论 RLAIF 如何利用“宪法 AI”扩大数据规模，并重点剖析 DeepSeek-R1 背后的核心技术：GRPO（组相对策略优化）与 RLVR-AI。前者通过移除 Critic 网络大幅降低显存需求，后者引入蒙特卡洛过程奖励模型（MC-PRM），将监督粒度从“结果”细化到“推理步骤”，缓解复杂逻辑任务中的过程对齐难题。

基于人类反馈的强化学习（RLHF）3

KL 驱动下的 SFT 与 DPO