LLM微调

本文详解 Qwen3 + LoRA 微调实战指南。在SFT阶段利用KL散度防止模型通用能力退化，在DPO阶段通过调节 β把控偏好强度。结合 Qwen3 + 全线性层 LoRA，在低显存下兼顾通用性与领域性能。