经典模型与架构

大模型经典架构笔记,记录多模态模型连接方式、视觉编码器选择、文本解码器设计和 DeepSeek 技术细节。

May 6, 2025 · 60 分钟 · 30004 字

Transformer模块

Transformer 架构笔记,记录 Encoder-Decoder 结构、多头自注意力、前馈网络、残差连接和层归一化等基础模块。

April 29, 2025 · 49 分钟 · 24512 字