数据清洗是数据分析中至关重要的一环,Pandas 是 Python 中进行数据清洗的利器。本文将介绍如何使用 Pandas 进行数据清洗。

常见的数据清洗任务

  1. 缺失值处理

    • 使用 fillna() 方法填充缺失值
    • 使用 dropna() 方法删除包含缺失值的行或列
  2. 重复数据处理

    • 使用 duplicated() 方法检测重复数据
    • 使用 drop_duplicates() 方法删除重复数据
  3. 数据类型转换

    • 使用 astype() 方法转换数据类型
  4. 数据排序

    • 使用 sort_values() 方法根据某个列对数据进行排序
  5. 数据过滤

    • 使用布尔索引对数据进行过滤

实例教程

以下是一个简单的数据清洗实例:

import pandas as pd

# 创建一个示例 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, None, 22],
    'Salary': [50000, 60000, 70000, 80000]
}

df = pd.DataFrame(data)

# 填充缺失值
df['Age'].fillna(df['Age'].mean(), inplace=True)

# 删除重复数据
df.drop_duplicates(inplace=True)

# 转换数据类型
df['Salary'] = df['Salary'].astype('float')

# 根据年龄排序
df.sort_values(by='Age', inplace=True)

# 过滤数据
filtered_df = df[df['Age'] > 25]

扩展阅读

想了解更多关于 Pandas 的内容,可以阅读 Pandas 官方文档

图片

Pandas 数据清洗