模型微调 | 杨の草原

KL 驱动下的 SFT 与 DPO

本文记录 Qwen3 + LoRA 微调实战：SFT 阶段用 KL 散度压住通用能力退化，DPO 阶段通过调节贝塔把控偏好强度。结合 Qwen3 + 全线性层LoRA，在低显存下兼顾通用性与领域性能。

LLaMA-Factory 大模型微调框架实操记录，覆盖安装配置、LoRA 微调、指令监督微调、PPO 训练等核心功能，方便快速搭建定制化语言模型。

大模型训练与微调笔记，记录全量微调、参数高效微调、LoRA 原理和指令微调方法。