DPO on 杨の草原

DPO on 杨の草原https://thinkless-github-io.pages.dev/tags/dpo/Recent content in DPO on 杨の草原Hugozh-CNMon, 02 Feb 2026 16:26:09 +0800基于人类反馈的强化学习（RLHF）3https://thinkless-github-io.pages.dev/posts/%E5%9F%BA%E4%BA%8E%E4%BA%BA%E7%B1%BB%E5%8F%8D%E9%A6%88%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0rlhf3/Mon, 02 Feb 2026 16:26:09 +0800https://thinkless-github-io.pages.dev/posts/%E5%9F%BA%E4%BA%8E%E4%BA%BA%E7%B1%BB%E5%8F%8D%E9%A6%88%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0rlhf3/RLHF 正在经历范式转移。本文从 PPO 到 DPO（直接偏好优化）的数学推导入手，说明 DPO 如何借助解析解绕过显式奖励模型；再讨论 RLAIF 如何利用“宪法 AI”扩大数据规模，并重点剖析 DeepSeek-R1 背后的核心技术：GRPO（组相对策略优化）与 RLVR-AI。前者通过移除 Critic 网络大幅降低显存需求，后者引入蒙特卡洛过程奖励模型（MC-PRM），将监督粒度从“结果”细化到“推理步骤”，缓解复杂逻辑任务中的过程对齐难题。KL 驱动下的 SFT 与 DPOhttps://thinkless-github-io.pages.dev/posts/kl-%E9%A9%B1%E5%8A%A8%E4%B8%8B%E7%9A%84-sft-%E4%B8%8E-dpo/Tue, 27 Jan 2026 20:24:09 +0800https://thinkless-github-io.pages.dev/posts/kl-%E9%A9%B1%E5%8A%A8%E4%B8%8B%E7%9A%84-sft-%E4%B8%8E-dpo/本文记录 Qwen3 + LoRA 微调实战：SFT 阶段用 KL 散度压住通用能力退化，DPO 阶段通过调节贝塔把控偏好强度。结合 Qwen3 + 全线性层LoRA，在低显存下兼顾通用性与领域性能。