🧠 知识蒸馏概述

model_compression_distillation

知识蒸馏（Knowledge Distillation）是模型压缩领域的重要技术，通过将大模型（教师模型）的知识迁移至小模型（学生模型），在保持性能的同时降低计算成本。以下是关键要点：

核心思想
利用教师模型的输出（如软标签）指导学生模型训练，而非直接使用原始数据。
📚 深入解析知识蒸馏原理
关键技术
1. 温度缩放（Temperature Scaling）
2. 损失函数设计（如KL散度）
3. 多阶段训练策略
应用场景
- 移动端部署
- 边缘计算优化
- 模型轻量化
研究进展
- 动态知识蒸馏（Dynamic Distillation）
- 自监督蒸馏方法
- 多任务蒸馏框架

延伸阅读：模型压缩技术全景图