机器学习数据集概述 📊

机器学习数据集是训练模型的核心资源，以下为常见类型与使用建议：

1. 经典数据集

MNIST：手写数字识别基准数据集
CIFAR-10：包含10个类别的彩色图像
Iris：植物分类实验数据

2. 公开数据平台

Kaggle：提供海量社区数据集
UCI Machine Learning Repository：经典学术数据集
Google Dataset Search：跨平台数据检索工具

3. 数据集选择原则

标注质量：优先选择清洗过的数据
规模适配：小型实验可用MNIST，工业场景需更大数据集
领域相关性：图像任务用CIFAR-10，文本任务用IMDB评论数据

如需进一步了解数据集标注规范，可访问 /dataset/annotation_guidelines 查看详细说明。