模型评测 | 杨の草原

基于人类反馈的强化学习（RLHF）4

别被大模型满天飞的“SOTA”跑分骗了！高分真代表好用吗？评估 RLHF 模型远不只是看通过率。本文梳理以“HHH”为核心的对齐评估体系，拆解训练过程中奖励分数与 KL 散度的权衡逻辑。从人工评估的实验设计到自动化基准的去噪技巧，再到红队测试的对抗性验证，给出一套从微调监控到安全部署的全链路评估指南。

提示词调优

一套提示词调优流程：先用 35 项标准打分，再根据反馈迭代改写，适合拿来评估和打磨复杂提示词。

训练数据集与性能评测

大模型训练数据集与评测指南：中文数据集资源汇总、数据处理方法、模型性能评测指标。构建高质量训练数据的实用教程。