机器学习中的分类任务指的是将数据集中的样本分为不同的类别。以下是一些常用的 Python 机器学习分类数据集。

常见分类数据集

  • Iris 数据集:这是一个经典的分类数据集,包含了三种不同品种的鸢尾花(setosa, versicolor, virginica)的萼片和花瓣的长度和宽度。
  • MNIST 数据集:这是一个手写数字的数据集,包含了0到9的手写数字图片。
  • Credit Card Fraud Detection:这是一个用于信用卡欺诈检测的数据集,包含了交易记录和欺诈标签。

使用数据集

要使用这些数据集,你可以使用 Python 的机器学习库,如 scikit-learn。以下是一个简单的例子,展示如何使用 Iris 数据集进行分类:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建分类器
classifier = RandomForestClassifier(n_estimators=100)

# 训练模型
classifier.fit(X_train, y_train)

# 测试模型
predictions = classifier.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, predictions)}")

扩展阅读

Iris Flower