Python 机器学习数据集

机器学习中的分类任务指的是将数据集中的样本分为不同的类别。以下是一些常用的 Python 机器学习分类数据集。

常见分类数据集

Iris 数据集：这是一个经典的分类数据集，包含了三种不同品种的鸢尾花（setosa, versicolor, virginica）的萼片和花瓣的长度和宽度。
- Iris 数据集详细信息
MNIST 数据集：这是一个手写数字的数据集，包含了0到9的手写数字图片。
- MNIST 数据集详细信息
Credit Card Fraud Detection：这是一个用于信用卡欺诈检测的数据集，包含了交易记录和欺诈标签。

使用数据集

要使用这些数据集，你可以使用 Python 的机器学习库，如 scikit-learn。以下是一个简单的例子，展示如何使用 Iris 数据集进行分类：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建分类器
classifier = RandomForestClassifier(n_estimators=100)

# 训练模型
classifier.fit(X_train, y_train)

# 测试模型
predictions = classifier.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, predictions)}")

扩展阅读

Python 机器学习 数据集 - 分类

常见分类数据集

使用数据集

扩展阅读

Python 机器学习数据集 - 分类