Iris 数据集是机器学习领域中最著名的数据集之一,它由三种不同品种的鸢尾花(Setosa, Versicolour, Virginica)的萼片和花瓣长度和宽度组成。这个数据集非常适合用于分类和聚类等机器学习任务。
数据集结构
Iris 数据集包含以下特征:
- 萼片长度(cm)
- 萼片宽度(cm)
- 花瓣长度(cm)
- 花瓣宽度(cm)
每个样本属于三种品种之一。
数据集用途
- 分类任务:例如,使用决策树、支持向量机等算法对鸢尾花进行分类。
- 聚类任务:例如,使用K-means算法将鸢尾花聚成不同的类别。
- 特征选择:通过分析特征的重要性,选择对分类或聚类任务最有用的特征。
数据集获取
您可以通过以下链接获取 Iris 数据集:
应用示例
以下是一个使用 Python 和 scikit-learn 库进行鸢尾花分类的简单示例:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 创建决策树分类器
clf = DecisionTreeClassifier()
# 训练模型
clf.fit(X_train, y_train)
# 预测测试集
y_pred = clf.predict(X_test)
# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")
总结
Iris 数据集是一个简单但非常实用的数据集,适合初学者入门机器学习。它可以帮助您了解机器学习的基本概念和算法。
Iris flower