Transformer 原理

Query, Key, Value: 对于序列中的每个元素，分别计算其 Query, Key 和 Value 向量。
Score: 计算 Query 与 Key 的点积，得到 Score。
Softmax: 对 Score 应用 Softmax 函数，得到权重。
加权求和: 将权重与 Value 相乘，并求和，得到最终的输出。

Transformer 模型是一种基于自注意力机制的深度神经网络模型，最初由 Google 的 KEG 实验室在 2017 年提出。它被广泛应用于自然语言处理、计算机视觉等领域，并在许多任务中取得了显著的成果。

自注意力机制

Transformer 的核心是自注意力机制（Self-Attention），它允许模型在处理序列数据时，能够考虑到序列中每个元素与其他元素之间的关系。

自注意力计算过程如下：

以下是一个 Transformer 模型的简化结构图：

如果您想了解更多关于 Transformer 的信息，可以阅读以下文章：