视觉Transformer论文指南 📚

什么是Vision Transformer？

Vision Transformer（ViT）是将Transformer架构应用于计算机视觉领域的突破性模型。它通过将图像分割为固定大小的块（patches），再结合Transformer的自注意力机制，实现了对图像特征的全局建模。

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
- 2020年ICML论文，提出ViT基础架构
DeiT: Efficient Vision Transformers
- 2020年论文，改进ViT的训练效率
ViT-Base vs. ResNet-50: A Comparative Study
- 对比实验分析经典模型性能