Iris 数据集详细介绍

Iris 数据集是机器学习领域中最著名的数据集之一，它由三种不同品种的鸢尾花（Setosa, Versicolour, Virginica）的萼片和花瓣长度和宽度组成。这个数据集非常适合用于分类和聚类等机器学习任务。

数据集结构

Iris 数据集包含以下特征：

萼片长度（cm）
萼片宽度（cm）
花瓣长度（cm）
花瓣宽度（cm）

每个样本属于三种品种之一。

数据集用途

分类任务：例如，使用决策树、支持向量机等算法对鸢尾花进行分类。
聚类任务：例如，使用K-means算法将鸢尾花聚成不同的类别。
特征选择：通过分析特征的重要性，选择对分类或聚类任务最有用的特征。

数据集获取

您可以通过以下链接获取 Iris 数据集：

下载 Iris 数据集

应用示例

以下是一个使用 Python 和 scikit-learn 库进行鸢尾花分类的简单示例：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建决策树分类器
clf = DecisionTreeClassifier()

# 训练模型
clf.fit(X_train, y_train)

# 预测测试集
y_pred = clf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

总结

Iris 数据集是一个简单但非常实用的数据集，适合初学者入门机器学习。它可以帮助您了解机器学习的基本概念和算法。