Pandas 高级教程

Pandas 是 Python 中一个非常强大的数据处理库，它提供了丰富的数据结构和数据分析工具。本教程将介绍 Pandas 的一些高级特性，帮助你更高效地处理和分析数据。

高级功能概述

以下是 Pandas 的一些高级功能：

分组与聚合（GroupBy）
条件筛选与索引（Conditionals and Indexing）
数据透视表（Pivot Tables）
时间序列分析（Time Series Analysis）
可视化（Visualization）

分组与聚合

分组是 Pandas 中一个非常有用的功能，它允许你将数据根据某个字段进行分组，并对每个组进行聚合操作。

import pandas as pd

# 示例数据
data = {'Name': ['Tom', 'Nick', 'John', 'Alice'],
        'Age': [20, 21, 19, 18],
        'City': ['New York', 'London', 'New York', 'Paris']}

df = pd.DataFrame(data)

# 按城市分组，并计算每个城市的平均年龄
grouped = df.groupby('City')['Age'].mean()
print(grouped)

数据透视表

数据透视表可以将数据重新排列，以便从不同的角度分析数据。

# 创建数据透视表
pivot_table = pd.pivot_table(df, values='Age', index='City', columns='Name', aggfunc='mean')
print(pivot_table)

时间序列分析

Pandas 提供了强大的时间序列分析功能，可以方便地进行时间序列数据的处理和分析。

import pandas as pd

# 示例时间序列数据
data = {'Date': pd.date_range(start='2020-01-01', periods=100),
        'Value': np.random.randn(100)}

df = pd.DataFrame(data)

# 计算移动平均
df['Moving_Average'] = df['Value'].rolling(window=5).mean()
print(df)

可视化

Pandas 可以与 Matplotlib、Seaborn 等库结合使用，进行数据可视化。

import matplotlib.pyplot as plt
import seaborn as sns

# 绘制散点图
sns.scatterplot(x='Date', y='Value', data=df)
plt.show()

扩展阅读

更多 Pandas 高级功能，请参考以下链接：

Pandas 官方文档

希望这份教程能够帮助你更好地掌握 Pandas 的使用技巧！🎉