机器学习中的分类任务指的是将数据集中的样本分为不同的类别。以下是一些常用的 Python 机器学习分类数据集。
常见分类数据集
- Iris 数据集:这是一个经典的分类数据集,包含了三种不同品种的鸢尾花(setosa, versicolor, virginica)的萼片和花瓣的长度和宽度。
- MNIST 数据集:这是一个手写数字的数据集,包含了0到9的手写数字图片。
- Credit Card Fraud Detection:这是一个用于信用卡欺诈检测的数据集,包含了交易记录和欺诈标签。
使用数据集
要使用这些数据集,你可以使用 Python 的机器学习库,如 scikit-learn。以下是一个简单的例子,展示如何使用 Iris 数据集进行分类:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 创建分类器
classifier = RandomForestClassifier(n_estimators=100)
# 训练模型
classifier.fit(X_train, y_train)
# 测试模型
predictions = classifier.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, predictions)}")
扩展阅读
Iris Flower