数据清洗是数据分析过程中的重要步骤,它确保了后续分析的准确性和可靠性。在这个教程中,我们将使用 Pandas 库来学习如何清洗数据。
常见的数据清洗任务
- 处理缺失值 🔄
- 使用
dropna()
或fillna()
函数处理缺失值。
- 使用
- 去除重复数据 🗑️
- 使用
duplicated()
和drop_duplicates()
函数。
- 使用
- 数据类型转换 🔧
- 使用
astype()
函数转换数据类型。
- 使用
- 数据排序 🔍
- 使用
sort_values()
或sort_index()
函数。
- 使用
示例代码
import pandas as pd
# 示例数据
data = {
'Name': ['Alice', 'Bob', None, 'Alice'],
'Age': [25, 30, 35, 22],
'City': ['New York', 'Los Angeles', 'Chicago', 'New York']
}
df = pd.DataFrame(data)
# 处理缺失值
df_cleaned = df.dropna(subset=['Name'])
# 去除重复数据
df_unique = df.drop_duplicates(subset=['Name'])
# 数据类型转换
df['Age'] = df['Age'].astype(int)
# 数据排序
df_sorted = df.sort_values(by='Age', ascending=False)
扩展阅读
如果您想了解更多关于 Pandas 的内容,可以阅读我们的《Pandas 完美入门指南》。
图片示例
Pandas 图标