Pandas 是 Python 中一个强大的数据分析库,它提供了快速、灵活且易于使用的数据结构。以下是一些 Pandas 的基础知识,帮助您开始学习这个强大的工具。
安装 Pandas
首先,确保您已经安装了 Pandas。可以通过以下命令进行安装:
pip install pandas
基础概念
- Series: 一维数组,类似于一列数据。
- DataFrame: 二维表格数据结构,由列(Column)和行(Row)组成。
常用操作
- 读取数据: 使用
pandas.read_csv()
读取 CSV 文件。
import pandas as pd
df = pd.read_csv('data.csv')
- 数据清洗: 使用
dropna()
、fillna()
等方法清洗数据。
df.dropna(inplace=True)
df.fillna(0, inplace=True)
- 数据筛选: 使用
df[df['column_name'] > value]
筛选数据。
filtered_df = df[df['age'] > 30]
- 数据合并: 使用
merge()
、join()
等方法合并数据。
merged_df = pd.merge(df1, df2, on='key_column')
- 数据分组: 使用
groupby()
方法进行数据分组。
grouped_df = df.groupby('column_name').sum()
- 数据可视化: 使用 Matplotlib 或 Seaborn 等库进行数据可视化。
import matplotlib.pyplot as plt
plt.plot(df['column_name'])
plt.show()
实例:读取并分析股票数据
假设您想分析某支股票的历史数据,以下是一个简单的例子:
import pandas as pd
# 读取股票数据
stock_data = pd.read_csv('stock_data.csv')
# 计算股票的平均价格
average_price = stock_data['price'].mean()
# 绘制股票价格趋势图
plt.plot(stock_data['date'], stock_data['price'])
plt.show()
扩展阅读
如果您想深入了解 Pandas,以下是一些推荐的资源:
Pandas Logo