<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>DPO on 杨の草原</title><link>https://thinkless-github-io.pages.dev/tags/dpo/</link><description>Recent content in DPO on 杨の草原</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Mon, 02 Feb 2026 16:26:09 +0800</lastBuildDate><atom:link href="https://thinkless-github-io.pages.dev/tags/dpo/index.xml" rel="self" type="application/rss+xml"/><item><title>基于人类反馈的强化学习（RLHF）3</title><link>https://thinkless-github-io.pages.dev/posts/%E5%9F%BA%E4%BA%8E%E4%BA%BA%E7%B1%BB%E5%8F%8D%E9%A6%88%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0rlhf3/</link><pubDate>Mon, 02 Feb 2026 16:26:09 +0800</pubDate><guid>https://thinkless-github-io.pages.dev/posts/%E5%9F%BA%E4%BA%8E%E4%BA%BA%E7%B1%BB%E5%8F%8D%E9%A6%88%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0rlhf3/</guid><description>RLHF 正在经历范式转移。本文从 PPO 到 DPO（直接偏好优化）的数学推导入手，说明 DPO 如何借助解析解绕过显式奖励模型；再讨论 RLAIF 如何利用“宪法 AI”扩大数据规模，并重点剖析 DeepSeek-R1 背后的核心技术：GRPO（组相对策略优化）与 RLVR-AI。前者通过移除 Critic 网络大幅降低显存需求，后者引入蒙特卡洛过程奖励模型（MC-PRM），将监督粒度从“结果”细化到“推理步骤”，缓解复杂逻辑任务中的过程对齐难题。</description></item><item><title>KL 驱动下的 SFT 与 DPO</title><link>https://thinkless-github-io.pages.dev/posts/kl-%E9%A9%B1%E5%8A%A8%E4%B8%8B%E7%9A%84-sft-%E4%B8%8E-dpo/</link><pubDate>Tue, 27 Jan 2026 20:24:09 +0800</pubDate><guid>https://thinkless-github-io.pages.dev/posts/kl-%E9%A9%B1%E5%8A%A8%E4%B8%8B%E7%9A%84-sft-%E4%B8%8E-dpo/</guid><description>本文记录 Qwen3 + LoRA 微调实战：SFT 阶段用 KL 散度压住通用能力退化，DPO 阶段通过调节贝塔把控偏好强度。结合 Qwen3 + 全线性层LoRA，在低显存下兼顾通用性与领域性能。</description></item></channel></rss>