数据清洗是数据分析和机器学习的基石,确保数据质量直接影响最终结果的可靠性。以下是关键知识点整理:
为什么需要数据清洗?✅
- 去除噪声:清理无效字符、格式错误等
- 填补空缺:处理缺失值(如使用均值/众数填充)
- 统一标准:规范日期、单位等字段格式
- 删除冗余:剔除重复记录或无关字段
常用工具推荐 🛠️
工具 | 适用场景 | 示例 |
---|---|---|
Python | 通用数据处理 | pandas 库的dropna() 方法 |
Excel | 小规模数据 | 条件格式+筛选功能 |
SQL | 数据库清洗 | UPDATE 语句修正错误记录 |
数据清洗
核心步骤指南 📚
数据采集
- 确认数据来源可靠性
- 保存原始数据副本(如
data_backup.csv
)
缺失值处理
- 使用
isnull().sum()
检测缺失 - 通过
fillna()
填补或删除
- 使用
异常值检测
- 3σ原则识别离群点
- 绘制箱线图辅助判断
缺失值处理
常见问题解答 ❓
Q: 如何处理分类变量中的“Unknown”?
A: 可将其归为单独类别或删除(了解更多)Q: 清洗后的数据应如何保存?
A: 建议使用.parquet
格式,支持高效存储与查询
异常值检测