数据清洗是数据分析的基石,它能帮助我们剔除无效信息,提升数据质量。以下是Python中常用的数据清洗方法:

1. 常见清洗任务

  • 处理缺失值:使用 pandasisnull()dropna() 方法
  • 去除重复数据:通过 duplicated()drop_duplicates() 函数
  • 修正异常值:结合 z-scoreIQR 方法进行检测
  • 数据标准化:用 normalize() 将数据缩放到统一范围

2. 推荐工具

工具 用途 示例
Pandas 数据处理核心库 点击查看Pandas教程
NumPy 数值计算支持 数据清洗工具对比
OpenRefine 可视化清洗工具 数据可视化实践

3. 示例代码

import pandas as pd
# 读取数据
df = pd.read_csv('data.csv')
# 填充缺失值
df.fillna({'column1': '未知', 'column2': 0}, inplace=True)
# 去除重复行
df.drop_duplicates(subset=['id'], keep='first', inplace=True)
数据清洗流程
Pandas库