数据预处理指南 📊

数据预处理是机器学习项目中至关重要的步骤，直接影响模型效果。以下是核心流程和注意事项：

1. 数据清洗 🧹

处理缺失值：使用插值或删除缺失数据
去除异常值：通过箱线图或Z-score检测
格式标准化：统一日期、单位等字段格式

数据清洗_流程

2. 特征工程 🧠

特征选择：使用卡方检验或基于模型的特征重要性
编码分类变量：采用独热编码（One-Hot Encoding）或标签编码
构造新特征：通过领域知识创建交互项或多项式特征

特征工程_方法

3. 数据标准化 🔁

归一化：将数据缩放到[0,1]区间
标准化：使用Z-score消除量纲差异
分箱处理：对连续变量进行离散化

数据标准化_技术

4. 数据增强 📈

图像数据：旋转、翻转、裁剪等操作
文本数据：同义词替换、回译等方法
时间序列：添加噪声或时序变换

数据增强_策略

5. 数据分割 🔍

训练集/测试集划分：常用7:3或8:2比例
交叉验证：k折验证提升模型鲁棒性
分层抽样：保持类别分布一致性

数据分割_技巧

需要更深入理解特征选择方法？可以查看 /zh/guides/ml/feature_engineering 的详细说明。