基于人类反馈的强化学习(RLHF)4

别被大模型满天飞的“SOTA”跑分骗了!高分真代表好用吗?评估 RLHF 模型远不只是看通过率。本文梳理以“HHH”为核心的对齐评估体系,拆解训练过程中奖励分数与 KL 散度的权衡逻辑。从人工评估的实验设计到自动化基准的去噪技巧,再到红队测试的对抗性验证,给出一套从微调监控到安全部署的全链路评估指南。

February 2, 2026 · 28 分钟 · 13581 字

大模型的安全性

大模型安全性笔记,记录对抗攻击原理与防御策略,包括白盒、灰盒、黑盒攻击、token 操作和梯度攻击机制。

May 7, 2025 · 4 分钟 · 1915 字