机器学习数据集是训练模型的核心资源,以下为常见类型与使用建议:

1. 经典数据集

  • MNIST:手写数字识别基准数据集
    MNIST
  • CIFAR-10:包含10个类别的彩色图像
    CIFAR_10
  • Iris:植物分类实验数据
    Iris

2. 公开数据平台

3. 数据集选择原则

  • 标注质量:优先选择清洗过的数据
  • 规模适配:小型实验可用MNIST,工业场景需更大数据集
  • 领域相关性:图像任务用CIFAR-10,文本任务用IMDB评论数据

如需进一步了解数据集标注规范,可访问 /dataset/annotation_guidelines 查看详细说明。