注意力机制

  • 自注意力(Self-Attention)是 Transformer 的核心,通过计算词与词之间的相关性实现信息提取
Self_Attention

编码器-解码器结构

  • 编码器将输入序列转换为隐状态,解码器通过注意力机制生成输出序列
Transformer_Structure

位置编码实现

  • 位置编码(Positional Encoding)通过正弦/余弦函数为序列添加位置信息
Position_Encoding

查看完整教程 深入理解 Transformer 的代码实现细节