🚀 Transformer 变体论文资源合集

📚 核心论文推荐

BERT: Pre-training of Deep Bidirectional Transformers
点击查看论文详情
GPT-3: Language Models are Few-Shot Learners
延伸阅读：GPT系列演进
T5: Fine-Grained Control of Language Models using Text-to-Text Pre-training
对比分析：T5与BERT差异

💡 变体创新方向

架构优化：如Efficient Transformer（减少计算量）
任务适配：视觉Transformer（ViT）、对话Transformer（ConvBERT）
查看视觉模型应用
多语言支持：mBERT（多语言BERT）

📚 扩展阅读

推荐：Transformer发展历程时间线
 查看：最新Transformer研究动态

📌 重点图示

点击展开架构对比图

Transformer_Architecture_Comparison