CIFAR-10 是一个常用的小规模图像数据集,包含 10 个类别、60,000 张 32x32 彩色图片。以下是数据处理的关键步骤:
🧾 1. 数据加载
使用 Python 的 tensorflow.keras.datasets.cifar10
模块加载数据:
from tensorflow.keras.datasets import cifar10
(x_train, y_train), (x_test, y_test) = cifar10.load_data()
🧹 2. 数据预处理
- 归一化:将像素值从 [0,255] 转换为 [0,1]
x_train = x_train.astype('float32') / 255.0
- 标签编码:将类别标签转换为 one-hot 编码
from tensorflow.keras.utils import to_categorical y_train = to_categorical(y_train, 10)
🎨 3. 数据增强(可选)
使用 ImageDataGenerator
进行图像增强:
from tensorflow.keras.preprocessing.image import ImageDataGenerator
datagen = ImageDataGenerator(
rotation_range=15,
width_shift_range=0.1,
height_shift_range=0.1
)
📁 4. 数据划分
将数据集划分为训练集、验证集和测试集:
from sklearn.model_selection import train_test_split
x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, test_size=0.2)
📚 扩展阅读
想深入了解模型训练?请查看 深度学习模型构建指南。