LLM解释

解释大语言模型的工作原理,从数据收集清洗到模型训练全流程。梳理参数与词元概念、微调技术、工具使用减少幻觉、强化学习优化等核心技术,理解 LLM 的运作机制。

August 1, 2025 · 17 分钟 · 8412 字

DeepSpeed

DeepSpeed 分布式训练框架配置笔记,记录安装步骤、环境配置、CUDA 设置和常见问题处理,覆盖大模型训练里的常用入口。

May 22, 2025 · 14 分钟 · 6853 字

训练与微调技术

大模型训练与微调笔记,记录全量微调、参数高效微调、LoRA 原理和指令微调方法。

May 6, 2025 · 28 分钟 · 13696 字

训练数据集与性能评测

大模型训练数据集与评测指南:中文数据集资源汇总、数据处理方法、模型性能评测指标。构建高质量训练数据的实用教程。

April 29, 2025 · 21 分钟 · 10354 字