Pandas 数据清洗教程

数据清洗是数据分析过程中的重要步骤，它确保了后续分析的准确性和可靠性。在这个教程中，我们将使用 Pandas 库来学习如何清洗数据。

常见的数据清洗任务

处理缺失值 🔄
- 使用 dropna() 或 fillna() 函数处理缺失值。
去除重复数据 🗑️
- 使用 duplicated() 和 drop_duplicates() 函数。
数据类型转换 🔧
- 使用 astype() 函数转换数据类型。
数据排序 🔍
- 使用 sort_values() 或 sort_index() 函数。

示例代码

import pandas as pd

# 示例数据
data = {
    'Name': ['Alice', 'Bob', None, 'Alice'],
    'Age': [25, 30, 35, 22],
    'City': ['New York', 'Los Angeles', 'Chicago', 'New York']
}

df = pd.DataFrame(data)

# 处理缺失值
df_cleaned = df.dropna(subset=['Name'])

# 去除重复数据
df_unique = df.drop_duplicates(subset=['Name'])

# 数据类型转换
df['Age'] = df['Age'].astype(int)

# 数据排序
df_sorted = df.sort_values(by='Age', ascending=False)

扩展阅读

如果您想了解更多关于 Pandas 的内容，可以阅读我们的《Pandas 完美入门指南》。

图片示例