模型对齐

本文剖析基于人类反馈的强化学习（RLHF）的全流程技术细节。通过探讨监督微调（SFT）在处理“幻觉”与“对齐”问题上的局限性，解释如何利用成对比较数据和 Bradley-Terry 模型构建概率化奖励模型。文章核心聚焦于近端策略优化（PPO）算法在 LLM 中的实现，包括 Actor-Critic 架构、GAE 优势估算及防止模型崩溃的 KL 散度惩罚机制。最后，针对梯度爆炸、奖励作弊等常见训练不稳定性问题，提供了参数调优指南与故障排除方案。

基于人类反馈的强化学习（RLHF）2

基于人类反馈的强化学习（RLHF）1