数据清洗是数据分析的重要环节,Python 提供了多种工具和库来帮助开发者进行数据清洗。以下是一些常用的 Python 数据清洗工具:

1. Pandas

Pandas 是 Python 中最常用的数据分析库之一,它提供了丰富的数据清洗功能。

  • 删除重复数据:使用 drop_duplicates() 方法可以删除重复的数据。
  • 填充缺失值:使用 fillna() 方法可以填充缺失值。
  • 数据类型转换:使用 astype() 方法可以将数据类型转换为所需的类型。
import pandas as pd

# 示例代码
df = pd.DataFrame({'name': ['Alice', 'Bob', 'Alice'], 'age': [25, 30, None]})
df.drop_duplicates(inplace=True)
df.fillna(0, inplace=True)
df['age'] = df['age'].astype(int)

2. NumPy

NumPy 是 Python 中的基础科学计算库,它也提供了数据清洗的功能。

  • 删除重复数据:使用 np.unique() 方法可以删除重复数据。
  • 填充缺失值:使用 np.nan_to_num() 方法可以将缺失值填充为指定的数值。
import numpy as np

# 示例代码
data = np.array([1, 2, 2, 3, 4])
unique_data = np.unique(data)
data = np.nan_to_num(data)

3. Openpyxl

Openpyxl 是一个用于读写 Excel 文件的库,它也提供了数据清洗的功能。

  • 删除重复数据:使用 drop_duplicates() 方法可以删除重复数据。
  • 填充缺失值:使用 fillna() 方法可以填充缺失值。
from openpyxl import load_workbook

# 示例代码
wb = load_workbook('example.xlsx')
ws = wb.active
ws.drop_duplicates(inplace=True)
ws.fillna(0, inplace=True)
wb.save('example.xlsx')

扩展阅读

更多关于 Python 数据清洗的内容,可以参考以下链接: