注意力机制在机器学习中的应用

什么是注意力机制？

注意力机制（Attention Mechanism）是深度学习领域的重要技术，通过动态分配权重来聚焦关键信息，广泛应用于自然语言处理、计算机视觉等场景。其核心思想源于人类视觉注意力的启发，例如在阅读时更关注重要段落 😊。

早期探索（2014-2017）
- 由 Bahdanau 等提出基于上下文的注意力模型（Attention User Guide）
- 用于神经机器翻译任务，显著提升翻译质量
Transformer 的突破（2017）
- Vaswani 等提出 Transformer 模型，完全基于注意力机制
- 引入自注意力（Self-Attention）和位置编码，解决序列建模难题
应用扩展（2018-至今）
- BERT 等预训练模型采用多头注意力机制
- 图像领域发展出视觉Transformer（ViT）和动态卷积