数据转换是数据预处理的关键步骤,旨在提升数据质量以支持更精准的分析或建模。以下是常见的转换方法及应用场景:
1. 标准化 (Standardization)
通过将数据转换为均值为0、标准差为1的分布,消除量纲影响。
公式:$ Z = \frac{X - \mu}{\sigma} $
2. 归一化 (Normalization)
将数据缩放到[0,1]区间,保留原始分布形状。
公式:$ X' = \frac{X - \min}{\max - \min} $
3. 分类变量编码
将非数值型数据转换为数值形式,常用方法包括:
- 独热编码 (One-Hot Encoding)
- 标签编码 (Label Encoding)
**适用场景**:处理文本分类、布尔值等离散数据。
4. 缺失值处理
常用策略包括:
- 删除缺失值
- 填充默认值(如均值、中位数)
- 使用插值法
5. 特征缩放
- 最大绝对值缩放 (Max Absolute Scaling)
- 小数缩放 (Decimal Scaling)
**适用场景**:处理不同量纲的数值型数据。