大模型经典架构笔记,记录多模态模型连接方式、视觉编码器选择、文本解码器设计和 DeepSeek 技术细节。
Transformer 架构笔记,记录 Encoder-Decoder 结构、多头自注意力、前馈网络、残差连接和层归一化等基础模块。