模型安全 | 杨の草原

基于人类反馈的强化学习（RLHF）4

别被大模型满天飞的“SOTA”跑分骗了！高分真代表好用吗？评估 RLHF 模型远不只是看通过率。本文梳理以“HHH”为核心的对齐评估体系，拆解训练过程中奖励分数与 KL 散度的权衡逻辑。从人工评估的实验设计到自动化基准的去噪技巧，再到红队测试的对抗性验证，给出一套从微调监控到安全部署的全链路评估指南。

大模型的安全性

大模型安全性笔记，记录对抗攻击原理与防御策略，包括白盒、灰盒、黑盒攻击、token 操作和梯度攻击机制。