基于人类反馈的强化学习(RLHF)3
RLHF 正在经历范式转移。本文从 PPO 到 DPO(直接偏好优化)的数学推导入手,说明 DPO 如何借助解析解绕过显式奖励模型;再讨论 RLAIF 如何利用“宪法 AI”扩大数据规模,并重点剖析 DeepSeek-R1 背后的核心技术:GRPO(组相对策略优化)与 RLVR-AI。前者通过移除 Critic 网络大幅降低显存需求,后者引入蒙特卡洛过程奖励模型(MC-PRM),将监督粒度从“结果”细化到“推理步骤”,缓解复杂逻辑任务中的过程对齐难题。
RLHF 正在经历范式转移。本文从 PPO 到 DPO(直接偏好优化)的数学推导入手,说明 DPO 如何借助解析解绕过显式奖励模型;再讨论 RLAIF 如何利用“宪法 AI”扩大数据规模,并重点剖析 DeepSeek-R1 背后的核心技术:GRPO(组相对策略优化)与 RLVR-AI。前者通过移除 Critic 网络大幅降低显存需求,后者引入蒙特卡洛过程奖励模型(MC-PRM),将监督粒度从“结果”细化到“推理步骤”,缓解复杂逻辑任务中的过程对齐难题。
本文记录 Qwen3 + LoRA 微调实战:SFT 阶段用 KL 散度压住通用能力退化,DPO 阶段通过调节贝塔把控偏好强度。结合 Qwen3 + 全线性层LoRA,在低显存下兼顾通用性与领域性能。