数据预处理是机器学习项目的基石,直接影响模型效果。以下是关键步骤与技巧:
1. 数据清洗 🧹
- 去除冗余:删除重复记录或无用字段
- 纠正错误:修正格式不一致的日期或数值
- 处理异常值:使用箱线图或Z-score检测 outliers
2. 缺失值处理 ⚙️
- 删除法:
df.dropna()
剔除缺失行/列 - 填充法:
- 数值型:均值/中位数填充
- 分类型:众数或新建"Unknown"类别
- 插值法:线性插值或时间序列插值
3. 数据标准化 🔧
- Min-Max 标准化:
(x - min)/(max - min)
- Z-Score 标准化:
(x - μ)/σ
- 归一化:适用于文本数据的 MinMaxScaler
4. 特征工程 🧠
- 编码分类变量:One-Hot / Label Encoding
- 特征缩放:StandardScaler / RobustScaler
- 多项式特征:通过
PolynomialFeatures
生成交互项
5. 验证与测试 🧪
- 训练集/测试集划分:
train_test_split
- 交叉验证:K折验证优化参数选择
- 数据泄露预防:确保特征工程仅在训练集上进行
点击扩展阅读:数据清洗详解 获取更深入的实践案例。
📌 提示:预处理时需注意数据分布变化,建议使用可视化工具监控数据质量。