KL 驱动下的 SFT 与 DPO
本文记录 Qwen3 + LoRA 微调实战:SFT 阶段用 KL 散度压住通用能力退化,DPO 阶段通过调节贝塔把控偏好强度。结合 Qwen3 + 全线性层LoRA,在低显存下兼顾通用性与领域性能。
本文记录 Qwen3 + LoRA 微调实战:SFT 阶段用 KL 散度压住通用能力退化,DPO 阶段通过调节贝塔把控偏好强度。结合 Qwen3 + 全线性层LoRA,在低显存下兼顾通用性与领域性能。
LLaMA-Factory 大模型微调框架实操记录,覆盖安装配置、LoRA 微调、指令监督微调、PPO 训练等核心功能,方便快速搭建定制化语言模型。
大模型训练与微调笔记,记录全量微调、参数高效微调、LoRA 原理和指令微调方法。