TensorFlow 数据操作指南 📚

TensorFlow 的 tf.data 模块是构建高效数据流水线的核心工具，支持从磁盘、内存或网络加载数据，并提供灵活的转换和批处理功能。以下是关键知识点：

1. 🚀 数据流水线基础

tf.data.Dataset：所有数据操作基于此类，支持从文件或张量创建数据集
数据源：
- tf.data.TextLineDataset（文本文件）
- tf.data.TFRecordDataset（二进制格式）
- tf.data.Dataset.from_tensor_slices（内存数据）
- 查看官方数据源教程

2. 🔄 数据转换操作

映射（Map）：map() 函数对数据集元素应用函数
批量处理（Batch）：batch() 将元素按批次组合
洗牌（Shuffle）：shuffle() 打乱数据顺序（训练时常用）
限流（Take）：take() 提取前 N 个元素
过滤（Filter）：filter() 筛选符合条件的元素

3. 📦 数据处理流程

dataset = tf.data.TextLineDataset("data.txt") \
    .shuffle(buffer_size=1000) \
    .map(parse_function) \
    .batch(32) \
    .prefetch(1)

prefetch()：预加载数据提升性能

4. 📈 实用技巧

使用 tf.data.Dataset.from_generator 自定义数据生成器
结合 tf.io.gfile 处理分布式文件系统
深入学习 tf.data API
通过 tf.data.Dataset.enumerate() 添加索引信息

5. 💡 最佳实践

尽量在数据加载阶段进行预处理
使用 tf.data.Dataset.cache() 缓存数据加速训练
对大规模数据使用 tf.data.Dataset.interleave() 并行读取
查看性能优化案例

📌 注意：所有数据操作应与模型训练流程分离，确保数据预处理不影响计算图构建。