模型微调 on 杨の草原

模型微调 on 杨の草原https://thinkless-github-io.pages.dev/tags/%E6%A8%A1%E5%9E%8B%E5%BE%AE%E8%B0%83/Recent content in 模型微调 on 杨の草原Hugozh-CNTue, 27 Jan 2026 20:24:09 +0800KL 驱动下的 SFT 与 DPOhttps://thinkless-github-io.pages.dev/posts/kl-%E9%A9%B1%E5%8A%A8%E4%B8%8B%E7%9A%84-sft-%E4%B8%8E-dpo/Tue, 27 Jan 2026 20:24:09 +0800https://thinkless-github-io.pages.dev/posts/kl-%E9%A9%B1%E5%8A%A8%E4%B8%8B%E7%9A%84-sft-%E4%B8%8E-dpo/本文记录 Qwen3 + LoRA 微调实战：SFT 阶段用 KL 散度压住通用能力退化，DPO 阶段通过调节贝塔把控偏好强度。结合 Qwen3 + 全线性层LoRA，在低显存下兼顾通用性与领域性能。LLaMA-Factoryhttps://thinkless-github-io.pages.dev/posts/llama-factory/Tue, 20 May 2025 16:08:08 +0800https://thinkless-github-io.pages.dev/posts/llama-factory/LLaMA-Factory 大模型微调框架实操记录，覆盖安装配置、LoRA 微调、指令监督微调、PPO 训练等核心功能，方便快速搭建定制化语言模型。训练与微调技术https://thinkless-github-io.pages.dev/posts/%E8%AE%AD%E7%BB%83%E4%B8%8E%E5%BE%AE%E8%B0%83%E6%8A%80%E6%9C%AF/Tue, 06 May 2025 11:12:21 +0800https://thinkless-github-io.pages.dev/posts/%E8%AE%AD%E7%BB%83%E4%B8%8E%E5%BE%AE%E8%B0%83%E6%8A%80%E6%9C%AF/大模型训练与微调笔记，记录全量微调、参数高效微调、LoRA 原理和指令微调方法。