数据清洗入门:Python 实现

数据清洗是数据分析流程中至关重要的一步,确保数据质量才能为后续建模提供可靠基础。以下是使用 Python 进行数据清洗的常见方法:

🧹 1. 处理缺失值

  • 使用 pandasisnull() 检测缺失数据
  • 通过 dropna()fillna() 填充/删除缺失值
  • 示例:
    import pandas as pd  
    df.dropna(inplace=True)  # 删除空值  
    df.fillna({'age': 0, 'income': -1}, inplace=True)  # 指定列填充  
    
data_cleaning

📊 2. 去除重复数据

  • 使用 duplicated() 检测重复行
  • 通过 drop_duplicates() 删除重复项
    df.drop_duplicates(subset=['name', 'email'], keep='first', inplace=True)  
    

🧾 3. 数据类型转换

  • 使用 astype() 转换列类型
  • 示例:
    df['date'] = pd.to_datetime(df['date'])  # 转换为日期类型  
    
    注意:若需处理更复杂的转换逻辑,可参考 Python 数据处理指南

⚠️ 4. 异常值处理

  • 使用 describe() 查看统计信息
  • 通过条件筛选删除异常值
    df = df[(df['age'] > 0) & (df['age'] < 120)]  # 过滤不合理年龄  
    

📌 5. 标准化与格式化

  • 使用 str.replace() 清洗文本数据
  • 示例:
    df['address'] = df['address'].str.replace(' ', '_')  # 替换空格为下划线  
    
    提示:对于更高级的文本处理,可查阅 Python 文本清洗教程

如果需要进一步学习数据分析相关知识,可访问 Python 数据分析指南