数据预处理是机器学习项目中的关键步骤,直接影响模型性能。以下是常见实践操作:
缺失值处理
- 使用均值/中位数填补:
填补_缺失值
- 删除缺失样本:
删除_缺失数据
- 示例代码:
df.fillna(df.mean(), inplace=True) # 均值填补
- 使用均值/中位数填补:
数据标准化
- Z-score标准化:
标准化_Z_score
- Min-Max规范化:
规范化_Min_Max
- 公式:$ X' = \frac{X - \mu}{\sigma} $
- Z-score标准化:
特征编码
- 独热编码:
编码_独热
- 标签编码:
编码_标签
- 注意:高基数分类变量建议使用嵌入式编码
- 独热编码:
数据分箱
- 等宽分箱:
分箱_等宽
- 等频分箱:
分箱_等频
- 示例:
分箱_离散特征
- 等宽分箱:
📌 实践建议
- 始终在训练集和测试集上分别进行标准化
- 使用
sklearn.preprocessing
模块实现常见操作 - 可结合可视化工具(如Matplotlib)分析数据分布