基于人类反馈的强化学习(RLHF)4

别被大模型满天飞的“SOTA”跑分骗了!高分真代表好用吗?评估 RLHF 模型远不只是看通过率。本文梳理以“HHH”为核心的对齐评估体系,拆解训练过程中奖励分数与 KL 散度的权衡逻辑。从人工评估的实验设计到自动化基准的去噪技巧,再到红队测试的对抗性验证,给出一套从微调监控到安全部署的全链路评估指南。

February 2, 2026 · 28 分钟 · 13581 字

提示词调优

一套提示词调优流程:先用 35 项标准打分,再根据反馈迭代改写,适合拿来评估和打磨复杂提示词。

August 30, 2025 · 3 分钟 · 1270 字

训练数据集与性能评测

大模型训练数据集与评测指南:中文数据集资源汇总、数据处理方法、模型性能评测指标。构建高质量训练数据的实用教程。

April 29, 2025 · 21 分钟 · 10354 字