数据清洗是数据分析的重要步骤之一。本文将介绍如何使用 Python 进行数据清洗。
常见的数据清洗任务
- 处理缺失值
- 处理异常值
- 数据类型转换
- 数据标准化
Python 数据清洗工具
- Pandas
- NumPy
- Scikit-learn
实例:使用 Pandas 清洗数据
import pandas as pd
# 读取数据
data = pd.read_csv('data.csv')
# 处理缺失值
data.fillna(0, inplace=True)
# 处理异常值
data = data[(data['age'] > 0) & (data['age'] < 100)]
# 数据类型转换
data['age'] = data['age'].astype(int)
# 数据标准化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data['age'] = scaler.fit_transform(data[['age']])
更多关于 Pandas 的内容,请参考官方文档。
图片示例
(center)
(这里插入一个与数据清洗相关的图片)