模型安全 on 杨の草原

模型安全 on 杨の草原https://thinkless-github-io.pages.dev/tags/%E6%A8%A1%E5%9E%8B%E5%AE%89%E5%85%A8/Recent content in 模型安全 on 杨の草原Hugozh-CNMon, 02 Feb 2026 16:27:09 +0800基于人类反馈的强化学习（RLHF）4https://thinkless-github-io.pages.dev/posts/%E5%9F%BA%E4%BA%8E%E4%BA%BA%E7%B1%BB%E5%8F%8D%E9%A6%88%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0rlhf4/Mon, 02 Feb 2026 16:27:09 +0800https://thinkless-github-io.pages.dev/posts/%E5%9F%BA%E4%BA%8E%E4%BA%BA%E7%B1%BB%E5%8F%8D%E9%A6%88%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0rlhf4/别被大模型满天飞的“SOTA”跑分骗了！高分真代表好用吗？评估 RLHF 模型远不只是看通过率。本文梳理以“HHH”为核心的对齐评估体系，拆解训练过程中奖励分数与 KL 散度的权衡逻辑。从人工评估的实验设计到自动化基准的去噪技巧，再到红队测试的对抗性验证，给出一套从微调监控到安全部署的全链路评估指南。大模型的安全性https://thinkless-github-io.pages.dev/posts/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%AE%89%E5%85%A8%E6%80%A7/Wed, 07 May 2025 10:36:21 +0800https://thinkless-github-io.pages.dev/posts/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%AE%89%E5%85%A8%E6%80%A7/大模型安全性笔记，记录对抗攻击原理与防御策略，包括白盒、灰盒、黑盒攻击、token 操作和梯度攻击机制。