ViT 论文资料

本文档提供了关于 Vision Transformer (ViT) 的论文资料。Vision Transformer 是一种基于 Transformer 的神经网络架构，用于图像分类任务。

摘要

Vision Transformer (ViT) 通过将图像分割成 patches 并将其作为序列输入到 Transformer 模型中，实现了图像分类任务。这种方法与传统的卷积神经网络 (CNN) 相比，提供了一种新颖的图像处理方式。