数据清洗是数据分析的基石,它能帮助我们剔除无效信息,提升数据质量。以下是Python中常用的数据清洗方法:
1. 常见清洗任务
- 处理缺失值:使用
pandas
的isnull()
和dropna()
方法 - 去除重复数据:通过
duplicated()
和drop_duplicates()
函数 - 修正异常值:结合
z-score
或IQR
方法进行检测 - 数据标准化:用
normalize()
将数据缩放到统一范围
2. 推荐工具
工具 | 用途 | 示例 |
---|---|---|
Pandas | 数据处理核心库 | 点击查看Pandas教程 |
NumPy | 数值计算支持 | 数据清洗工具对比 |
OpenRefine | 可视化清洗工具 | 数据可视化实践 |
3. 示例代码
import pandas as pd
# 读取数据
df = pd.read_csv('data.csv')
# 填充缺失值
df.fillna({'column1': '未知', 'column2': 0}, inplace=True)
# 去除重复行
df.drop_duplicates(subset=['id'], keep='first', inplace=True)