✅ 什么是 scikit-learn?
scikit-learn 是 Python 语言中著名的机器学习库,提供简单高效的工具用于数据挖掘和数据分析。其核心功能包括:
- 📊 数据预处理(标准化、归一化)
- 📈 模型训练(分类、回归、聚类)
- 🧠 特征工程(维度降阶、特征选择)
- 📌 模型评估(准确率、召回率)
📚 扩展阅读:scikit_learn_tutorial 提供更详细的 API 使用说明
📌 快速上手
- 安装:
pip install scikit-learn
- 导入:
import sklearn
- 常用模块:
sklearn.linear_model
(线性模型)sklearn.tree
(决策树)sklearn.cluster
(聚类算法)sklearn.metrics
(性能评估)
🔍 实战案例
分类任务示例
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
# 加载数据
data = load_iris()
X = data.data
y = data.target
# 划分训练集与测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
# 训练模型
model = RandomForestClassifier()
model.fit(X_train, y_train)
# 预测与评估
accuracy = model.score(X_test, y_test)
print(f"模型准确率:{accuracy:.2f}")
📈 核心功能图解
🚀 进阶技巧
- 🔄 使用
Pipeline
链接数据预处理与模型训练 - 📊 通过
confusion_matrix
分析分类结果 - 🧩 探索
GridSearchCV
进行超参数调优 - 📌 结合
joblib
实现模型持久化
🌐 官方文档:https://scikit-learn.org(建议配合阅读)