数据清洗是数据分析过程中的重要步骤,它可以帮助我们去除数据中的噪声,提高数据质量。本教程将介绍如何使用 Pandas 库进行数据清洗。
常见的数据清洗任务
- 去除重复数据
- 处理缺失值
- 数据类型转换
- 异常值处理
去除重复数据
import pandas as pd
data = pd.DataFrame({
'name': ['Alice', 'Bob', 'Alice', 'Charlie'],
'age': [25, 30, 25, 35]
})
# 去除重复数据
clean_data = data.drop_duplicates()
print(clean_data)
处理缺失值
# 添加缺失值
data['age'][1] = None
# 填充缺失值
clean_data = data.fillna(0)
print(clean_data)
数据类型转换
# 将字符串转换为整数
clean_data['age'] = clean_data['age'].astype(int)
print(clean_data)
异常值处理
# 计算年龄的 Z 分数
clean_data['z_score'] = (clean_data['age'] - clean_data['age'].mean()) / clean_data['age'].std()
# 筛选出异常值
clean_data = clean_data[clean_data['z_score'].abs() <= 3]
print(clean_data)
扩展阅读
更多 Pandas 数据清洗技巧,请参考 Pandas 数据清洗教程。
数据清洗