docs/tensorflow/lite/guide/quantization

🤖 TensorFlow Lite 量化指南

量化是降低模型大小和计算需求的关键技术，通过减少模型中权重和激活值的精度来实现。以下为量化实践的核心要点：

量化类型
- 训练后量化（Post-training Quantization）使用 `optimize_for_inference` 工具对已训练模型进行量化，适用于无需重新训练的场景
- 动态量化（Dynamic Quantization）在推理过程中实时量化，适合轻量级设备部署
- 量化感知训练（Quantization Aware Training）在训练阶段模拟量化效应，需配合 `tf.quantize` API 使用
实现步骤
- 准备冻结的 .pb 模型文件
- 使用 tf.lite.TFLiteConverter 加载模型
- 设置 optimizations 参数启用量化
- 调用 convert() 生成量化模型
注意事项
- 量化可能导致精度损失，建议通过 calibration 数据集进行验证
- 支持 int8 和 uint8 格式，部分硬件需特定支持
- 可通过 representative_dataset 优化量化范围
扩展阅读
如需了解模型优化策略，可参考：/docs/tensorflow/lite/guide/optimization
如需了解部署实践，可查看：/docs/tensorflow/lite/guide/deploy_android

📌 量化技术可显著提升移动端推理性能，但需在精度与效率间进行权衡。建议结合实际硬件特性选择量化方案。