Transformer 源代码解析
注意力机制
自注意力(Self-Attention)是 Transformer 的核心,通过计算词与词之间的相关性实现信息提取
编码器-解码器结构
编码器将输入序列转换为隐状态,解码器通过注意力机制生成输出序列
位置编码实现
位置编码(Positional Encoding)通过正弦/余弦函数为序列添加位置信息
查看完整教程
深入理解 Transformer 的代码实现细节