数据清洗是数据分析过程中的重要环节,它可以帮助我们提高数据质量,为后续的数据分析打下坚实的基础。本教程将使用 Pandas 库来介绍数据清洗的基本方法和技巧。

数据清洗步骤

  1. 检查数据完整性
    使用 isnull()isna() 函数检查数据中是否存在缺失值。

    data.isnull().sum()
    
  2. 处理缺失值

    • 删除含有缺失值的行或列:dropna()
    • 填充缺失值:fillna()
  3. 处理异常值

    • 使用 describe() 函数查看数据的统计信息。
    • 使用 plot() 函数绘制数据分布图。
    • 使用 IQR 方法识别异常值。
  4. 数据转换

    • 将字符串转换为日期:pd.to_datetime()
    • 将字符串转换为数字:pd.to_numeric()

实例分析

以下是一个简单的实例,展示如何使用 Pandas 进行数据清洗。

import pandas as pd

# 创建示例数据
data = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'age': [25, 30, None, 40],
    'salary': [5000, 6000, 7000, 8000]
})

# 检查数据完整性
print(data.isnull().sum())

# 处理缺失值
data_cleaned = data.dropna(subset=['age'])

# 处理异常值
data_cleaned['age'] = data_cleaned['age'].apply(lambda x: x if x < 50 else None)
data_cleaned.dropna(subset=['age'], inplace=True)

# 数据转换
data_cleaned['date'] = pd.to_datetime('2021-01-01')

print(data_cleaned)

扩展阅读

如果您想了解更多关于 Pandas 的知识,可以访问我们的 Pandas 教程 页面。

数据清洗示例