数据预处理实践指南 📊

数据预处理是机器学习项目中的关键步骤，直接影响模型性能。以下是常见实践操作：

缺失值处理
- 使用均值/中位数填补：填补_缺失值
- 删除缺失样本：删除_缺失数据
- 示例代码：
```
df.fillna(df.mean(), inplace=True)  # 均值填补
```
数据标准化
- Z-score标准化：标准化_Z_score
- Min-Max规范化：规范化_Min_Max
- 公式：$ X' = \frac{X - \mu}{\sigma} $
特征编码
- 独热编码：编码_独热
- 标签编码：编码_标签
- 注意：高基数分类变量建议使用嵌入式编码
数据分箱
- 等宽分箱：分箱_等宽
- 等频分箱：分箱_等频
- 示例：分箱_离散特征

📌 实践建议