时间序列分析是数据科学和统计学中一个重要的领域,而 Pandas 库是 Python 中进行时间序列分析的一个强大工具。以下是一个 Pandas 时间序列分析的简单教程。

基础概念

时间序列数据通常由一系列按时间顺序排列的数值组成。例如,股票价格、温度记录等。在 Pandas 中,我们可以使用 DataFrame 来存储时间序列数据。

创建时间序列

首先,我们需要创建一个时间序列。以下是如何使用 Pandas 创建一个简单的时间序列:

import pandas as pd

# 创建一个时间序列
date_range = pd.date_range(start='2021-01-01', periods=6, freq='D')
time_series = pd.Series([10, 20, 30, 40, 50, 60], index=date_range)

print(time_series)

访问时间序列数据

你可以通过索引来访问时间序列数据:

print(time_series['2021-01-02'])  # 输出:20

时间序列操作

Pandas 提供了许多用于操作时间序列数据的方法,例如:

  • resample():按不同的频率重新采样时间序列。
  • cumsum():计算累积和。
  • rolling():创建一个滚动窗口。

以下是一个使用 resample() 方法的例子:

# 按月重新采样时间序列
monthly_time_series = time_series.resample('M').sum()

print(monthly_time_series)

时间序列可视化

Pandas 与 Matplotlib 库结合可以很容易地进行时间序列的可视化。

import matplotlib.pyplot as plt

plt.figure(figsize=(10, 5))
plt.plot(time_series)
plt.title('时间序列示例')
plt.xlabel('日期')
plt.ylabel('值')
plt.show()

扩展阅读

如果你对 Pandas 时间序列分析感兴趣,以下是一些扩展阅读的链接:

时间序列示例图