KL 驱动下的 SFT 与 DPO

本文记录 Qwen3 + LoRA 微调实战:SFT 阶段用 KL 散度压住通用能力退化,DPO 阶段通过调节贝塔把控偏好强度。结合 Qwen3 + 全线性层LoRA,在低显存下兼顾通用性与领域性能。

January 27, 2026 · 13 分钟 · 6040 字

LLaMA-Factory

LLaMA-Factory 大模型微调框架实操记录,覆盖安装配置、LoRA 微调、指令监督微调、PPO 训练等核心功能,方便快速搭建定制化语言模型。

May 20, 2025 · 31 分钟 · 15109 字

训练与微调技术

大模型训练与微调笔记,记录全量微调、参数高效微调、LoRA 原理和指令微调方法。

May 6, 2025 · 28 分钟 · 13696 字