Pandas 是 Python 中一个强大的数据分析库,它提供了数据结构和数据分析工具,可以有效地进行数据分析。本教程将介绍 Pandas 的一些高级特性。

1. Pandas 的数据结构

Pandas 主要使用两种数据结构:Series 和 DataFrame。

  • Series 是一维的数组结构,可以包含任何数据类型。
  • DataFrame 是二维的数据结构,类似于 SQL 中的表格或 R 中的数据框,由列和行组成。

Series 示例

import pandas as pd

s = pd.Series([0, 1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e', 'f'])
print(s)

DataFrame 示例

import pandas as pd

data = {
    'Name': ['Tom', 'Nick', 'John', 'Alice'],
    'Age': [20, 21, 19, 18],
    'Country': ['USA', 'UK', 'Canada', 'Australia']
}

df = pd.DataFrame(data)
print(df)

2. Pandas 的数据处理

Pandas 提供了丰富的数据处理功能,包括数据清洗、数据转换等。

数据清洗

数据清洗是数据处理的重要步骤,可以使用 Pandas 的 dropna()fillna() 等方法进行。

df.dropna(inplace=True)  # 删除缺失值
df.fillna(0, inplace=True)  # 用 0 填充缺失值

数据转换

Pandas 支持多种数据转换操作,例如类型转换、排序等。

df['Age'] = df['Age'].astype(int)  # 类型转换
df.sort_values(by='Age', inplace=True)  # 排序

3. 扩展阅读

如果您想了解更多关于 Pandas 的内容,可以访问 Pandas 官方文档

Pandas Logo