数据清洗是数据分析过程中的重要步骤,它确保了后续分析结果的准确性和可靠性。本教程将介绍如何使用 Pandas 库进行数据清洗。

常见数据清洗任务

  1. 处理缺失值

    • 使用 dropna() 方法删除含有缺失值的行或列。
    • 使用 fillna() 方法填充缺失值。
  2. 处理重复数据

    • 使用 duplicated() 方法找出重复数据。
    • 使用 drop_duplicates() 方法删除重复数据。
  3. 数据类型转换

    • 使用 astype() 方法将数据类型转换为所需类型。
  4. 数据排序

    • 使用 sort_values() 方法根据某一列排序。

实例操作

以下是一个简单的数据清洗示例:

import pandas as pd

# 创建示例数据
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Alice'],
    'Age': [25, 30, 35, 25],
    'Salary': [50000, 60000, 70000, 60000]
}

df = pd.DataFrame(data)

# 处理重复数据
df = df.drop_duplicates()

# 填充缺失值
df['Age'].fillna(df['Age'].mean(), inplace=True)

# 输出清洗后的数据
print(df)

扩展阅读

想要了解更多关于 Pandas 的内容,可以阅读《Pandas 官方文档》

Pandas 图标