zh/tutorials/python-data-cleaning

数据清洗入门：Python 实现

数据清洗是数据分析流程中至关重要的一步，确保数据质量才能为后续建模提供可靠基础。以下是使用 Python 进行数据清洗的常见方法：

示例：

import pandas as pd  
df.dropna(inplace=True)  # 删除空值  
df.fillna({'age': 0, 'income': -1}, inplace=True)  # 指定列填充

通过 drop_duplicates() 删除重复项

df.drop_duplicates(subset=['name', 'email'], keep='first', inplace=True)

使用 astype() 转换列类型
示例：
```
df['date'] = pd.to_datetime(df['date'])  # 转换为日期类型  
```
注意：若需处理更复杂的转换逻辑，可参考 Python 数据处理指南

通过条件筛选删除异常值

df = df[(df['age'] > 0) & (df['age'] < 120)]  # 过滤不合理年龄

示例：

df['address'] = df['address'].str.replace(' ', '_')  # 替换空格为下划线

提示：对于更高级的文本处理，可查阅 Python 文本清洗教程

如果需要进一步学习数据分析相关知识，可访问 Python 数据分析指南。