模型对齐 on 杨の草原

模型对齐 on 杨の草原https://thinkless-github-io.pages.dev/tags/%E6%A8%A1%E5%9E%8B%E5%AF%B9%E9%BD%90/Recent content in 模型对齐 on 杨の草原Hugozh-CNMon, 02 Feb 2026 16:25:09 +0800基于人类反馈的强化学习（RLHF）2https://thinkless-github-io.pages.dev/posts/%E5%9F%BA%E4%BA%8E%E4%BA%BA%E7%B1%BB%E5%8F%8D%E9%A6%88%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0rlhf2/Mon, 02 Feb 2026 16:25:09 +0800https://thinkless-github-io.pages.dev/posts/%E5%9F%BA%E4%BA%8E%E4%BA%BA%E7%B1%BB%E5%8F%8D%E9%A6%88%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0rlhf2/本文拆解基于人类反馈的强化学习（RLHF）的核心架构。详细剖析了 PPO 算法中策略模型（Actor）、奖励模型（RM）、价值模型（Critic）与参考模型（Ref）的协同机制，推导了包含 KL 散度惩罚与 GAE 优势估计的联合目标函数。探讨了 Temperature 采样与 Reward Whitening 等工程细节，提供了一套标准化的项目目录结构，并附带基于 trl 库的最小闭环 Python 代码示例，帮助从零构建并调试“生成-评分-更新”的强化学习流水线。基于人类反馈的强化学习（RLHF）1https://thinkless-github-io.pages.dev/posts/%E5%9F%BA%E4%BA%8E%E4%BA%BA%E7%B1%BB%E5%8F%8D%E9%A6%88%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0rlhf1/Mon, 02 Feb 2026 16:24:09 +0800https://thinkless-github-io.pages.dev/posts/%E5%9F%BA%E4%BA%8E%E4%BA%BA%E7%B1%BB%E5%8F%8D%E9%A6%88%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0rlhf1/本文剖析基于人类反馈的强化学习（RLHF）的全流程技术细节。通过探讨监督微调（SFT）在处理“幻觉”与“对齐”问题上的局限性，解释如何利用成对比较数据和 Bradley-Terry 模型构建概率化奖励模型。文章核心聚焦于近端策略优化（PPO）算法在 LLM 中的实现，包括 Actor-Critic 架构、GAE 优势估算及防止模型崩溃的 KL 散度惩罚机制。最后，针对梯度爆炸、奖励作弊等常见训练不稳定性问题，提供了参数调优指南与故障排除方案。