Python 中的决策树机器学习教程

决策树是一种常见的机器学习算法，用于分类和回归任务。在本教程中，我们将探讨如何在 Python 中使用决策树模型。

安装必要的库

在开始之前，确保你已经安装了以下库：

scikit-learn
pandas

你可以使用以下命令来安装：

pip install scikit-learn pandas

创建决策树模型

以下是一个简单的例子，展示如何使用 scikit-learn 库中的 DecisionTreeClassifier 创建一个决策树分类模型：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建决策树分类器
clf = DecisionTreeClassifier()

# 训练模型
clf.fit(X_train, y_train)

# 预测测试集
y_pred = clf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确率: {accuracy:.2f}")

评估决策树模型

评估模型性能可以通过多种指标，如准确率、召回率、F1 分数等。以下是如何计算这些指标：

from sklearn.metrics import classification_report

# 计算分类报告
report = classification_report(y_test, y_pred)
print(report)

调整决策树参数

决策树的性能可以通过调整其参数来优化。以下是一些常用的参数：

criterion：决策树使用的分裂标准，可以是 "gini" 或 "entropy"。
max_depth：树的最大深度。
min_samples_split：在节点处划分所需的最小样本数。

例如，以下是如何创建一个最大深度为 3 的决策树分类器：

clf = DecisionTreeClassifier(max_depth=3)

保存和加载模型

在完成模型训练后，你可能想要将其保存到文件中以便将来使用。以下是如何保存和加载模型：

import joblib

# 保存模型
joblib.dump(clf, 'decision_tree_model.pkl')

# 加载模型
clf_loaded = joblib.load('decision_tree_model.pkl')

更多关于决策树的信息，可以查看本站的机器学习教程。