数据清洗是Python数据分析中的基础技能。本教程将带你了解如何在Python中进行数据清洗。
常见数据清洗任务
- 处理缺失值
- 处理异常值
- 处理重复数据
- 数据转换
示例
假设我们有一个包含学生数据的CSV文件,我们需要对其进行清洗。
处理缺失值
import pandas as pd
# 读取数据
data = pd.read_csv('students.csv')
# 查看缺失值
print(data.isnull().sum())
# 填充缺失值
data['age'].fillna(data['age'].mean(), inplace=True)
处理异常值
# 假设年龄的异常值定义为小于0或大于100
data = data[(data['age'] >= 0) & (data['age'] <= 100)]
处理重复数据
data.drop_duplicates(inplace=True)
数据转换
data['gender'] = data['gender'].map({'男': 'male', '女': 'female'})
更多内容
想要学习更多关于Python数据清洗的知识,请访问数据清洗教程。
图片展示
数据清洗