Transformer模块

Transformer 架构笔记,记录 Encoder-Decoder 结构、多头自注意力、前馈网络、残差连接和层归一化等基础模块。

April 29, 2025 · 49 分钟 · 24512 字 · Yangless