CIFAR-10 是一个常用的小规模图像数据集,包含 10 个类别、60,000 张 32x32 彩色图片。以下是数据处理的关键步骤:

🧾 1. 数据加载

使用 Python 的 tensorflow.keras.datasets.cifar10 模块加载数据:

from tensorflow.keras.datasets import cifar10
(x_train, y_train), (x_test, y_test) = cifar10.load_data()
CIFAR-10数据加载

🧹 2. 数据预处理

  • 归一化:将像素值从 [0,255] 转换为 [0,1]
    x_train = x_train.astype('float32') / 255.0
    
  • 标签编码:将类别标签转换为 one-hot 编码
    from tensorflow.keras.utils import to_categorical
    y_train = to_categorical(y_train, 10)
    
数据预处理步骤

🎨 3. 数据增强(可选)

使用 ImageDataGenerator 进行图像增强:

from tensorflow.keras.preprocessing.image import ImageDataGenerator
datagen = ImageDataGenerator(
    rotation_range=15,
    width_shift_range=0.1,
    height_shift_range=0.1
)
数据增强技术

📁 4. 数据划分

将数据集划分为训练集、验证集和测试集:

from sklearn.model_selection import train_test_split
x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, test_size=0.2)
数据划分示意图

📚 扩展阅读

想深入了解模型训练?请查看 深度学习模型构建指南