数据清洗是Python数据分析中的基础技能。本教程将带你了解如何在Python中进行数据清洗。

常见数据清洗任务

  1. 处理缺失值
  2. 处理异常值
  3. 处理重复数据
  4. 数据转换

示例

假设我们有一个包含学生数据的CSV文件,我们需要对其进行清洗。

处理缺失值

import pandas as pd

# 读取数据
data = pd.read_csv('students.csv')

# 查看缺失值
print(data.isnull().sum())

# 填充缺失值
data['age'].fillna(data['age'].mean(), inplace=True)

处理异常值

# 假设年龄的异常值定义为小于0或大于100
data = data[(data['age'] >= 0) & (data['age'] <= 100)]

处理重复数据

data.drop_duplicates(inplace=True)

数据转换

data['gender'] = data['gender'].map({'男': 'male', '女': 'female'})

更多内容

想要学习更多关于Python数据清洗的知识,请访问数据清洗教程

图片展示

数据清洗