Scikit-learn 是一个强大的 Python 库,用于数据挖掘和数据分析。它提供了各种数据预处理、模型选择和评估工具。

安装 Scikit-learn

您可以通过 pip 安装 Scikit-learn:

pip install -U scikit-learn

常用功能

  • 分类:支持多种分类算法,如支持向量机(SVM)、随机森林、梯度提升树等。
  • 回归:包括线性回归、岭回归等。
  • 聚类:包括 K-均值、层次聚类等。
  • 降维:如 PCA(主成分分析)、t-SNE(t 分布随机邻居嵌入)等。
  • 模型选择与评估:提供交叉验证、混淆矩阵、ROC-AUC 等评估指标。

快速开始

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score


iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建模型
clf = RandomForestClassifier()

# 训练模型
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)

# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

更多内容,请参阅我们的官方文档:Scikit-learn 文档