docs/tensorflow/zh/latest/guide/quantization.html

TensorFlow 量化指南 📊

量化是通过减少模型中权重和激活值的精度来降低模型大小和提升推理速度的技术。在移动端或嵌入式设备中，量化能显著优化模型性能，同时保持较高的准确率。以下是关键要点：

1. 量化类型 📌

静态量化：在训练后固定模型参数，通过量化方案（如8-bit整型）压缩模型
动态量化：在推理时根据输入数据动态调整量化参数
训练后量化：在训练完成后对模型进行量化，适用于已有模型的优化

2. 实现步骤 🧰

准备模型：确保模型已训练完成且冻结
选择量化方法：根据需求配置量化方案（如quantize::linear）
转换模型：使用quantize工具将模型转换为量化格式
评估精度：通过基准测试验证量化前后性能差异

3. 量化工具 🔧

TensorFlow Lite：支持整型量化与浮点量化
Quantization Training：通过训练生成量化感知的模型
Post-training Quantization：无需重新训练即可压缩模型

👉 需要进一步了解如何配置量化参数？可访问 TensorFlow 优化指南获取详细说明。