Scikit-learn 是一个强大的 Python 库,用于数据挖掘和数据分析。它提供了各种数据预处理、模型选择和评估工具。
安装 Scikit-learn
您可以通过 pip 安装 Scikit-learn:
pip install -U scikit-learn
常用功能
- 分类:支持多种分类算法,如支持向量机(SVM)、随机森林、梯度提升树等。
- 回归:包括线性回归、岭回归等。
- 聚类:包括 K-均值、层次聚类等。
- 降维:如 PCA(主成分分析)、t-SNE(t 分布随机邻居嵌入)等。
- 模型选择与评估:提供交叉验证、混淆矩阵、ROC-AUC 等评估指标。
快速开始
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
iris = load_iris()
X, y = iris.data, iris.target
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建模型
clf = RandomForestClassifier()
# 训练模型
clf.fit(X_train, y_train)
# 预测
y_pred = clf.predict(X_test)
# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")
更多内容,请参阅我们的官方文档:Scikit-learn 文档