数据清洗是数据分析过程中的重要步骤,它可以帮助我们去除数据中的噪声,提高数据质量。本教程将介绍如何使用 Pandas 库进行数据清洗。

常见的数据清洗任务

  1. 去除重复数据
  2. 处理缺失值
  3. 数据类型转换
  4. 异常值处理

去除重复数据

import pandas as pd

data = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Alice', 'Charlie'],
    'age': [25, 30, 25, 35]
})

# 去除重复数据
clean_data = data.drop_duplicates()

print(clean_data)

处理缺失值

# 添加缺失值
data['age'][1] = None

# 填充缺失值
clean_data = data.fillna(0)

print(clean_data)

数据类型转换

# 将字符串转换为整数
clean_data['age'] = clean_data['age'].astype(int)

print(clean_data)

异常值处理

# 计算年龄的 Z 分数
clean_data['z_score'] = (clean_data['age'] - clean_data['age'].mean()) / clean_data['age'].std()

# 筛选出异常值
clean_data = clean_data[clean_data['z_score'].abs() <= 3]

print(clean_data)

扩展阅读

更多 Pandas 数据清洗技巧,请参考 Pandas 数据清洗教程

数据清洗