🌟 数据预处理概述

数据预处理是数据分析和机器学习流程中至关重要的第一步，主要目标是提高数据质量，为后续建模打下坚实基础。以下是核心步骤与注意事项：

🧹 1. 数据清洗

处理缺失值：使用插值或删除法填补空白数据
去除噪声：过滤异常值（如💰金额异常、📍坐标错误）
处理重复：删除冗余记录（如日志文件中重复的条目）
格式标准化：统一日期格式（YYYY-MM-DD）和单位（如kg vs g）

🛠️ 2. 数据转换

编码分类变量：将文本标签转换为数值（如性别 → 0/1）
归一化/标准化：将数据缩放到统一范围（如0-1或均值0方差1）
特征构造：创建新特征（如从时间戳提取小时字段）
文本向量化：使用TF-IDF或词嵌入技术（如BERT）处理非结构化文本

🧩 3. 数据集成

合并多源数据：解决字段命名冲突（如订单号 vs 交易ID）
处理数据冲突：统一不同系统中的矛盾数据（如库存系统与销售系统的数据差异）
维度规范化：建立统一的维度表（如用户ID映射到姓名）

⚙️ 4. 数据规约

特征选择：移除无关特征（如用户ID在预测模型中可能不重要）
降维技术：使用PCA或t-SNE压缩高维数据
数据压缩：通过编码减少存储空间（如Gender → 男/女）

📌 扩展阅读

如需深入了解具体步骤，可访问数据预处理详细流程获取更多技术细节。

数据清洗_步骤

数据转换_方法

数据集成_示例

数据规约_技术