Pandas 是 Python 中一个强大的数据分析库,它提供了数据结构 DataFrame,使得数据处理变得更加容易。以下是一些 Pandas 数据处理的基本教程。

1. 安装 Pandas

在开始之前,请确保已经安装了 Pandas。如果没有安装,可以通过以下命令进行安装:

pip install pandas

2. 创建 DataFrame

DataFrame 是 Pandas 的核心数据结构,它类似于一个表格,由行和列组成。

import pandas as pd

data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}

df = pd.DataFrame(data)
print(df)

3. 选择数据

你可以使用 .loc.iloc 来选择 DataFrame 中的数据。

# 使用 .loc
print(df.loc[0:2, 'Name'])

# 使用 .iloc
print(df.iloc[1:3, 1:])

4. 数据清洗

数据清洗是数据处理的重要步骤,以下是一些常见的数据清洗方法:

  • 删除缺失值
  • 填充缺失值
  • 删除重复值
# 删除缺失值
df.dropna(inplace=True)

# 填充缺失值
df.fillna('Unknown', inplace=True)

# 删除重复值
df.drop_duplicates(inplace=True)

5. 数据转换

Pandas 提供了许多数据转换的方法,例如:

  • 转换数据类型
  • 切分和合并数据
  • 重新排列数据
# 转换数据类型
df['Age'] = df['Age'].astype(int)

# 切分和合并数据
df1 = df.loc[df['City'] == 'New York']
df2 = df.loc[df['City'] == 'Los Angeles']
df3 = pd.concat([df1, df2])

# 重新排列数据
df = df[['City', 'Name', 'Age']]

6. 统计分析

Pandas 提供了丰富的统计分析功能,例如:

  • 计算平均值、中位数、标准差等
  • 计算描述性统计
# 计算平均值
print(df['Age'].mean())

# 计算描述性统计
print(df.describe())

扩展阅读

想了解更多关于 Pandas 的内容,可以访问我们的 Pandas 教程 页面。

Pandas Logo