scikit-learn 基础教程 📚

欢迎来到 scikit-learn 基础教程！这是机器学习领域最常用的Python库之一，适合初学者快速上手。我们将从安装、数据加载、模型训练到预测完整展示流程，配合代码示例和可视化分析，帮助你打下坚实基础！

🚀 快速入门步骤

安装库
使用pip安装：
```
pip install scikit-learn
```
Python_库安装
加载数据集
scikit-learn内置了多个经典数据集，例如：
- 鸢尾花数据集（Iris）
- 乳腺癌数据集（Breast Cancer）
- 糖尿病数据集（Diabetes）
  通过以下代码加载：
```
from sklearn.datasets import load_iris
data = load_iris()
```
数据集示例
数据预处理
- 标准化：StandardScaler
- 分割训练集/测试集：train_test_split
- 特征工程：PCA 降维
  数据预处理流程
训练模型
常用算法包括：
- 线性回归（Linear Regression）
- 支持向量机（SVM）
- 决策树（Decision Tree）
  示例代码：
```
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
```
机器学习模型

模型评估
使用 accuracy_score、confusion_matrix 等工具评估性能：

from sklearn.metrics import accuracy_score
predictions = model.predict(X_test)
score = accuracy_score(y_test, predictions)

📌 扩展学习建议

深入理解 机器学习基础概念：点击前往
探索 数据可视化技巧：点击查看
学习 超参数调优方法：了解更多

📌 代码示例：分类任务

# 导入必要的库
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 训练模型
clf = RandomForestClassifier(n_estimators=100)
clf.fit(X_train, y_train)

# 预测与评估
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred, target_names=iris.target_names))