Pandas 是 Python 中一个强大的数据分析库,它提供了快速、灵活且易于使用的数据结构。以下是一些 Pandas 的基础知识,帮助您开始学习这个强大的工具。

安装 Pandas

首先,确保您已经安装了 Pandas。可以通过以下命令进行安装:

pip install pandas

基础概念

  • Series: 一维数组,类似于一列数据。
  • DataFrame: 二维表格数据结构,由列(Column)和行(Row)组成。

常用操作

  • 读取数据: 使用 pandas.read_csv() 读取 CSV 文件。
import pandas as pd

df = pd.read_csv('data.csv')
  • 数据清洗: 使用 dropna()fillna() 等方法清洗数据。
df.dropna(inplace=True)
df.fillna(0, inplace=True)
  • 数据筛选: 使用 df[df['column_name'] > value] 筛选数据。
filtered_df = df[df['age'] > 30]
  • 数据合并: 使用 merge()join() 等方法合并数据。
merged_df = pd.merge(df1, df2, on='key_column')
  • 数据分组: 使用 groupby() 方法进行数据分组。
grouped_df = df.groupby('column_name').sum()
  • 数据可视化: 使用 Matplotlib 或 Seaborn 等库进行数据可视化。
import matplotlib.pyplot as plt

plt.plot(df['column_name'])
plt.show()

实例:读取并分析股票数据

假设您想分析某支股票的历史数据,以下是一个简单的例子:

import pandas as pd

# 读取股票数据
stock_data = pd.read_csv('stock_data.csv')

# 计算股票的平均价格
average_price = stock_data['price'].mean()

# 绘制股票价格趋势图
plt.plot(stock_data['date'], stock_data['price'])
plt.show()

扩展阅读

如果您想深入了解 Pandas,以下是一些推荐的资源:

Pandas Logo