Python数据清洗教程

数据清洗是数据分析的基石，它能帮助我们剔除无效信息，提升数据质量。以下是Python中常用的数据清洗方法：

1. 常见清洗任务

处理缺失值：使用 pandas 的 isnull() 和 dropna() 方法
去除重复数据：通过 duplicated() 和 drop_duplicates() 函数
修正异常值：结合 z-score 或 IQR 方法进行检测
数据标准化：用 normalize() 将数据缩放到统一范围

2. 推荐工具

工具	用途	示例
Pandas	数据处理核心库	点击查看Pandas教程
NumPy	数值计算支持	数据清洗工具对比
OpenRefine	可视化清洗工具	数据可视化实践

3. 示例代码

import pandas as pd
# 读取数据
df = pd.read_csv('data.csv')
# 填充缺失值
df.fillna({'column1': '未知', 'column2': 0}, inplace=True)
# 去除重复行
df.drop_duplicates(subset=['id'], keep='first', inplace=True)

数据清洗流程

Pandas库