KL 驱动下的 SFT 与 DPO

本文详解 Qwen3 + LoRA 微调实战指南。在SFT阶段利用KL散度防止模型通用能力退化,在DPO阶段通过调节 β把控偏好强度。结合 Qwen3 + 全线性层 LoRA,在低显存下兼顾通用性与领域性能。

January 27, 2026 · 13 min · 6176 words