KL 驱动下的 SFT 与 DPO本文详解 Qwen3 + LoRA 微调实战指南。在SFT阶段利用KL散度防止模型通用能力退化,在DPO阶段通过调节 β把控偏好强度。结合 Qwen3 + 全线性层 LoRA,在低显存下兼顾通用性与领域性能。