<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>模型对齐 on 杨の草原</title><link>https://thinkless-github-io.pages.dev/tags/%E6%A8%A1%E5%9E%8B%E5%AF%B9%E9%BD%90/</link><description>Recent content in 模型对齐 on 杨の草原</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Mon, 02 Feb 2026 16:25:09 +0800</lastBuildDate><atom:link href="https://thinkless-github-io.pages.dev/tags/%E6%A8%A1%E5%9E%8B%E5%AF%B9%E9%BD%90/index.xml" rel="self" type="application/rss+xml"/><item><title>基于人类反馈的强化学习（RLHF）2</title><link>https://thinkless-github-io.pages.dev/posts/%E5%9F%BA%E4%BA%8E%E4%BA%BA%E7%B1%BB%E5%8F%8D%E9%A6%88%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0rlhf2/</link><pubDate>Mon, 02 Feb 2026 16:25:09 +0800</pubDate><guid>https://thinkless-github-io.pages.dev/posts/%E5%9F%BA%E4%BA%8E%E4%BA%BA%E7%B1%BB%E5%8F%8D%E9%A6%88%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0rlhf2/</guid><description>本文拆解基于人类反馈的强化学习（RLHF）的核心架构。详细剖析了 PPO 算法中策略模型（Actor）、奖励模型（RM）、价值模型（Critic）与参考模型（Ref）的协同机制，推导了包含 KL 散度惩罚与 GAE 优势估计的联合目标函数。探讨了 Temperature 采样与 Reward Whitening 等工程细节，提供了一套标准化的项目目录结构，并附带基于 trl 库的最小闭环 Python 代码示例，帮助从零构建并调试“生成-评分-更新”的强化学习流水线。</description></item><item><title>基于人类反馈的强化学习（RLHF）1</title><link>https://thinkless-github-io.pages.dev/posts/%E5%9F%BA%E4%BA%8E%E4%BA%BA%E7%B1%BB%E5%8F%8D%E9%A6%88%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0rlhf1/</link><pubDate>Mon, 02 Feb 2026 16:24:09 +0800</pubDate><guid>https://thinkless-github-io.pages.dev/posts/%E5%9F%BA%E4%BA%8E%E4%BA%BA%E7%B1%BB%E5%8F%8D%E9%A6%88%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0rlhf1/</guid><description>本文剖析基于人类反馈的强化学习（RLHF）的全流程技术细节。通过探讨监督微调（SFT）在处理“幻觉”与“对齐”问题上的局限性，解释如何利用成对比较数据和 Bradley-Terry 模型构建概率化奖励模型。文章核心聚焦于近端策略优化（PPO）算法在 LLM 中的实现，包括 Actor-Critic 架构、GAE 优势估算及防止模型崩溃的 KL 散度惩罚机制。最后，针对梯度爆炸、奖励作弊等常见训练不稳定性问题，提供了参数调优指南与故障排除方案。</description></item></channel></rss>