数据清洗入门:Python 实现
数据清洗是数据分析流程中至关重要的一步,确保数据质量才能为后续建模提供可靠基础。以下是使用 Python 进行数据清洗的常见方法:
🧹 1. 处理缺失值
- 使用
pandas
的isnull()
检测缺失数据 - 通过
dropna()
或fillna()
填充/删除缺失值 - 示例:
import pandas as pd df.dropna(inplace=True) # 删除空值 df.fillna({'age': 0, 'income': -1}, inplace=True) # 指定列填充
📊 2. 去除重复数据
- 使用
duplicated()
检测重复行 - 通过
drop_duplicates()
删除重复项df.drop_duplicates(subset=['name', 'email'], keep='first', inplace=True)
🧾 3. 数据类型转换
- 使用
astype()
转换列类型 - 示例:
注意:若需处理更复杂的转换逻辑,可参考 Python 数据处理指南df['date'] = pd.to_datetime(df['date']) # 转换为日期类型
⚠️ 4. 异常值处理
- 使用
describe()
查看统计信息 - 通过条件筛选删除异常值
df = df[(df['age'] > 0) & (df['age'] < 120)] # 过滤不合理年龄
📌 5. 标准化与格式化
- 使用
str.replace()
清洗文本数据 - 示例:
提示:对于更高级的文本处理,可查阅 Python 文本清洗教程df['address'] = df['address'].str.replace(' ', '_') # 替换空格为下划线
如果需要进一步学习数据分析相关知识,可访问 Python 数据分析指南。