数据清洗是数据分析过程中的重要步骤,它确保了后续分析的准确性和可靠性。在这个教程中,我们将使用 Pandas 库来学习如何清洗数据。

常见的数据清洗任务

  1. 处理缺失值 🔄
    • 使用 dropna()fillna() 函数处理缺失值。
  2. 去除重复数据 🗑️
    • 使用 duplicated()drop_duplicates() 函数。
  3. 数据类型转换 🔧
    • 使用 astype() 函数转换数据类型。
  4. 数据排序 🔍
    • 使用 sort_values()sort_index() 函数。

示例代码

import pandas as pd

# 示例数据
data = {
    'Name': ['Alice', 'Bob', None, 'Alice'],
    'Age': [25, 30, 35, 22],
    'City': ['New York', 'Los Angeles', 'Chicago', 'New York']
}

df = pd.DataFrame(data)

# 处理缺失值
df_cleaned = df.dropna(subset=['Name'])

# 去除重复数据
df_unique = df.drop_duplicates(subset=['Name'])

# 数据类型转换
df['Age'] = df['Age'].astype(int)

# 数据排序
df_sorted = df.sort_values(by='Age', ascending=False)

扩展阅读

如果您想了解更多关于 Pandas 的内容,可以阅读我们的《Pandas 完美入门指南》

图片示例

Pandas 图标