Transformer 源代码解析

注意力机制

自注意力（Self-Attention）是 Transformer 的核心，通过计算词与词之间的相关性实现信息提取

Self_Attention

编码器-解码器结构

编码器将输入序列转换为隐状态，解码器通过注意力机制生成输出序列

Transformer_Structure

位置编码实现

位置编码（Positional Encoding）通过正弦/余弦函数为序列添加位置信息

Position_Encoding

查看完整教程深入理解 Transformer 的代码实现细节