时间序列分析是数据科学和统计学中一个重要的领域,而 Pandas 库是 Python 中进行时间序列分析的一个强大工具。以下是一个 Pandas 时间序列分析的简单教程。
基础概念
时间序列数据通常由一系列按时间顺序排列的数值组成。例如,股票价格、温度记录等。在 Pandas 中,我们可以使用 DataFrame
来存储时间序列数据。
创建时间序列
首先,我们需要创建一个时间序列。以下是如何使用 Pandas 创建一个简单的时间序列:
import pandas as pd
# 创建一个时间序列
date_range = pd.date_range(start='2021-01-01', periods=6, freq='D')
time_series = pd.Series([10, 20, 30, 40, 50, 60], index=date_range)
print(time_series)
访问时间序列数据
你可以通过索引来访问时间序列数据:
print(time_series['2021-01-02']) # 输出:20
时间序列操作
Pandas 提供了许多用于操作时间序列数据的方法,例如:
resample()
:按不同的频率重新采样时间序列。cumsum()
:计算累积和。rolling()
:创建一个滚动窗口。
以下是一个使用 resample()
方法的例子:
# 按月重新采样时间序列
monthly_time_series = time_series.resample('M').sum()
print(monthly_time_series)
时间序列可视化
Pandas 与 Matplotlib 库结合可以很容易地进行时间序列的可视化。
import matplotlib.pyplot as plt
plt.figure(figsize=(10, 5))
plt.plot(time_series)
plt.title('时间序列示例')
plt.xlabel('日期')
plt.ylabel('值')
plt.show()
扩展阅读
如果你对 Pandas 时间序列分析感兴趣,以下是一些扩展阅读的链接:
时间序列示例图