1. 模型整体架构
Transformer 模型由编码器(Encoder)和解码器(Decoder)组成,通过自注意力机制(Self-Attention)和前馈网络(FFN)实现并行处理。
2. 核心组件解析
自注意力机制(Self-Attention)
用于捕捉输入序列中词与词之间的依赖关系,通过查询(Q)、键(K)、值(V)三个矩阵计算。多头注意力(Multi-Head Attention)
通过多个注意力头并行处理信息,提升模型对不同位置特征的敏感度。位置编码(Positional Encoding)
为解决序列顺序问题,通过正弦/余弦函数为每个位置添加固定向量。
3. 应用场景与扩展
Transformer 已广泛应用于: