数据清洗是数据分析过程中的重要步骤,它确保了后续分析结果的准确性和可靠性。本教程将介绍如何使用 Pandas 库进行数据清洗。
常见数据清洗任务
处理缺失值
- 使用
dropna()
方法删除含有缺失值的行或列。 - 使用
fillna()
方法填充缺失值。
- 使用
处理重复数据
- 使用
duplicated()
方法找出重复数据。 - 使用
drop_duplicates()
方法删除重复数据。
- 使用
数据类型转换
- 使用
astype()
方法将数据类型转换为所需类型。
- 使用
数据排序
- 使用
sort_values()
方法根据某一列排序。
- 使用
实例操作
以下是一个简单的数据清洗示例:
import pandas as pd
# 创建示例数据
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'Alice'],
'Age': [25, 30, 35, 25],
'Salary': [50000, 60000, 70000, 60000]
}
df = pd.DataFrame(data)
# 处理重复数据
df = df.drop_duplicates()
# 填充缺失值
df['Age'].fillna(df['Age'].mean(), inplace=True)
# 输出清洗后的数据
print(df)
扩展阅读
想要了解更多关于 Pandas 的内容,可以阅读《Pandas 官方文档》。
Pandas 图标