📚 核心论文推荐
BERT: Pre-training of Deep Bidirectional Transformers
点击查看论文详情GPT-3: Language Models are Few-Shot Learners
延伸阅读:GPT系列演进T5: Fine-Grained Control of Language Models using Text-to-Text Pre-training
对比分析:T5与BERT差异
💡 变体创新方向
- 架构优化:如Efficient Transformer(减少计算量)
- 任务适配:视觉Transformer(ViT)、对话Transformer(ConvBERT)
查看视觉模型应用 - 多语言支持:mBERT(多语言BERT)
📚 扩展阅读
推荐:Transformer发展历程时间线
查看:最新Transformer研究动态