Pandas 数据处理教程

Pandas 是 Python 中一个强大的数据分析库，它提供了数据结构 DataFrame，使得数据处理变得更加容易。以下是一些 Pandas 数据处理的基本教程。

1. 安装 Pandas

在开始之前，请确保已经安装了 Pandas。如果没有安装，可以通过以下命令进行安装：

pip install pandas

2. 创建 DataFrame

DataFrame 是 Pandas 的核心数据结构，它类似于一个表格，由行和列组成。

import pandas as pd

data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}

df = pd.DataFrame(data)
print(df)

3. 选择数据

你可以使用 .loc 或 .iloc 来选择 DataFrame 中的数据。

# 使用 .loc
print(df.loc[0:2, 'Name'])

# 使用 .iloc
print(df.iloc[1:3, 1:])

4. 数据清洗

数据清洗是数据处理的重要步骤，以下是一些常见的数据清洗方法：

删除缺失值
填充缺失值
删除重复值

# 删除缺失值
df.dropna(inplace=True)

# 填充缺失值
df.fillna('Unknown', inplace=True)

# 删除重复值
df.drop_duplicates(inplace=True)

5. 数据转换

Pandas 提供了许多数据转换的方法，例如：

转换数据类型
切分和合并数据
重新排列数据

# 转换数据类型
df['Age'] = df['Age'].astype(int)

# 切分和合并数据
df1 = df.loc[df['City'] == 'New York']
df2 = df.loc[df['City'] == 'Los Angeles']
df3 = pd.concat([df1, df2])

# 重新排列数据
df = df[['City', 'Name', 'Age']]

6. 统计分析

Pandas 提供了丰富的统计分析功能，例如：

计算平均值、中位数、标准差等
计算描述性统计

# 计算平均值
print(df['Age'].mean())

# 计算描述性统计
print(df.describe())

扩展阅读

想了解更多关于 Pandas 的内容，可以访问我们的 Pandas 教程页面。