数据清洗是数据分析过程中的重要环节,它可以帮助我们提高数据质量,为后续的数据分析打下坚实的基础。本教程将使用 Pandas 库来介绍数据清洗的基本方法和技巧。
数据清洗步骤
检查数据完整性
使用isnull()
或isna()
函数检查数据中是否存在缺失值。data.isnull().sum()
处理缺失值
- 删除含有缺失值的行或列:
dropna()
- 填充缺失值:
fillna()
- 删除含有缺失值的行或列:
处理异常值
- 使用
describe()
函数查看数据的统计信息。 - 使用
plot()
函数绘制数据分布图。 - 使用
IQR
方法识别异常值。
- 使用
数据转换
- 将字符串转换为日期:
pd.to_datetime()
- 将字符串转换为数字:
pd.to_numeric()
- 将字符串转换为日期:
实例分析
以下是一个简单的实例,展示如何使用 Pandas 进行数据清洗。
import pandas as pd
# 创建示例数据
data = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie', 'David'],
'age': [25, 30, None, 40],
'salary': [5000, 6000, 7000, 8000]
})
# 检查数据完整性
print(data.isnull().sum())
# 处理缺失值
data_cleaned = data.dropna(subset=['age'])
# 处理异常值
data_cleaned['age'] = data_cleaned['age'].apply(lambda x: x if x < 50 else None)
data_cleaned.dropna(subset=['age'], inplace=True)
# 数据转换
data_cleaned['date'] = pd.to_datetime('2021-01-01')
print(data_cleaned)
扩展阅读
如果您想了解更多关于 Pandas 的知识,可以访问我们的 Pandas 教程 页面。
数据清洗示例