以下是一些常见且广泛使用的 AI 数据集,它们为机器学习和深度学习研究提供了宝贵的数据资源。

  • MNIST 数据集:一个手写数字数据集,包含 60,000 个训练样本和 10,000 个测试样本。
  • CIFAR-10 数据集:一个包含 10 个类别的 32x32 彩色图像数据集,共有 60,000 张图片。
  • ImageNet 数据集:一个包含数百万个图像的数据集,每个图像都标记了多个类别。

MNIST 数据集示例

更多数据集信息,请访问我们的 数据集列表 页面。

  • Common Crawl:一个非结构化网页数据集,用于研究网络结构和内容。
  • Tweets 数据集:Twitter 提供的公开数据集,包含大量用户的推文。
  • UCI 机器学习库:一个包含多种数据集的数据库,适用于各种机器学习任务。

Common Crawl 数据集示例

如果您对特定数据集有更多兴趣,可以访问 数据集详细信息 页面获取更多信息。