基于人类反馈的强化学习(RLHF)4

别被大模型满天飞的“SOTA”跑分骗了!高分真代表好用吗?评估RLHF模型远非通过率那么简单。本文系统剖析了以“HHH”为核心的对齐评估体系,深入探讨了训练过程中奖励分数与KL散度的权衡逻辑。从人工评估的实验设计到自动化基准的去噪技巧,再到红队测试的对抗性验证,为您提供一套从微调监控到安全部署的全链路技术评估指南。

February 2, 2026 · 28 min · 14000 words

基于人类反馈的强化学习(RLHF)3

RLHF正经历范式转移。本文通过解析从PPO到DPO(直接偏好优化)的数学推导,揭示DPO如何通过解析解绕过显式奖励模型。进一步探讨RLAIF如何利用“宪法AI”实现数据规模化,并重点剖析DeepSeek-R1背后的核心技术:GRPO(组相对策略优化)与RLVR-AI。前者通过移除Critic网络大幅降低显存需求,后者引入蒙特卡洛过程奖励模型(MC-PRM),将监督粒度从“结果”细化至“推理步骤”,完美解决了复杂逻辑任务中的过程对齐难题。

February 2, 2026 · 26 min · 12641 words

基于人类反馈的强化学习(RLHF)2

本文拆解基于人类反馈的强化学习(RLHF)的核心架构。详细剖析了 PPO 算法中策略模型(Actor)、奖励模型(RM)、价值模型(Critic)与参考模型(Ref)的协同机制,推导了包含 KL 散度惩罚与 GAE 优势估计的联合目标函数。探讨了 Temperature 采样与 Reward Whiteining 等工程细节,提供了一套标准化的项目目录结构,并附带基于 trl 库的最小闭环 Python 代码示例,帮助从零构建并调试“生成-评分-更新”的强化学习流水线。

February 2, 2026 · 19 min · 9133 words

基于人类反馈的强化学习(RLHF)1

本文剖析基于人类反馈的强化学习(RLHF)的全流程技术细节。通过探讨监督微调(SFT)在处理“幻觉”与“对齐”问题上的局限性,解释如何利用成对比较数据和 Bradley-Terry 模型构建概率化奖励模型。文章核心聚焦于近端策略优化(PPO)算法在 LLM 中的实现,包括 Actor-Critic 架构、GAE 优势估算及防止模型崩溃的 KL 散度惩罚机制。最后,针对梯度爆炸、奖励作弊等常见训练不稳定性问题,提供了参数调优指南与故障排除方案。

February 2, 2026 · 57 min · 28388 words

KL 驱动下的 SFT 与 DPO

本文详解 Qwen3 + LoRA 微调实战指南。在SFT阶段利用KL散度防止模型通用能力退化,在DPO阶段通过调节 β把控偏好强度。结合 Qwen3 + 全线性层 LoRA,在低显存下兼顾通用性与领域性能。

January 27, 2026 · 13 min · 6176 words

Claude Code 进阶心得

通过限制上下文文档的长度,反向推动开发者简化内部工具与代码逻辑。讨论多实例并行工作流、上下文清理策略(Record & Clear)、MCP 的状态托管本质,以及如何利用 GitHub Actions 构建自动化 PR 修复流水线,将 Claude Code 从一个简单的问答机器人转化为真正嵌入开发环境的自主工程师。

January 17, 2026 · 8 min · 3564 words

Agent2

本文剖析智能体的演进历程,从传统基于模型与效用的控制架构,到大语言模型(LLM)驱动的认知的新范式。阐述了Agent从“显式规则”到“隐式推理”的核心转变。

December 19, 2025 · 10 min · 4698 words

多模态推理模型

本文系统梳理了大型多模态推理模型(LMRMs)的技术演进路线图。从早期的感知驱动模块化设计,到大模型时代的思维链(CoT)推理,再到未来基于强化学习的长程规划系统。。

December 19, 2025 · 23 min · 11406 words

强化学习3

强化学习策略梯度代码的实现,以及优势函数的迭代思想。

October 23, 2025 · 20 min · 9857 words

强化学习2

强化学习算法分类和使用示例。

October 23, 2025 · 21 min · 10440 words