数据清洗是数据分析中至关重要的一环,Pandas 是 Python 中进行数据清洗的利器。本文将介绍如何使用 Pandas 进行数据清洗。
常见的数据清洗任务
缺失值处理
- 使用
fillna()
方法填充缺失值 - 使用
dropna()
方法删除包含缺失值的行或列
- 使用
重复数据处理
- 使用
duplicated()
方法检测重复数据 - 使用
drop_duplicates()
方法删除重复数据
- 使用
数据类型转换
- 使用
astype()
方法转换数据类型
- 使用
数据排序
- 使用
sort_values()
方法根据某个列对数据进行排序
- 使用
数据过滤
- 使用布尔索引对数据进行过滤
实例教程
以下是一个简单的数据清洗实例:
import pandas as pd
# 创建一个示例 DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, None, 22],
'Salary': [50000, 60000, 70000, 80000]
}
df = pd.DataFrame(data)
# 填充缺失值
df['Age'].fillna(df['Age'].mean(), inplace=True)
# 删除重复数据
df.drop_duplicates(inplace=True)
# 转换数据类型
df['Salary'] = df['Salary'].astype('float')
# 根据年龄排序
df.sort_values(by='Age', inplace=True)
# 过滤数据
filtered_df = df[df['Age'] > 25]
扩展阅读
想了解更多关于 Pandas 的内容,可以阅读 Pandas 官方文档。
图片
Pandas 数据清洗