Pandas 是 Python 中一个非常强大的数据分析库,它提供了高效、灵活且易于使用的数据结构和数据分析工具。以下是一些 Pandas 数据分析的基础教程。
1. Pandas 简介
Pandas 提供了两种主要的数据结构:Series
和 DataFrame
。
- Series 是一个一维数组,类似于 Python 中的列表。
- DataFrame 是一个二维表格,类似于 Excel 或 SQL 数据库。
2. 创建 Series 和 DataFrame
import pandas as pd
# 创建 Series
s = pd.Series([1, 2, 3, 4, 5])
print(s)
# 创建 DataFrame
data = {'Name': ['Tom', 'Nick', 'John', 'Alice'],
'Age': [20, 21, 19, 18]}
df = pd.DataFrame(data)
print(df)
3. 选择和筛选数据
# 选择特定列
print(df['Name'])
# 选择特定行
print(df.loc[1:3])
# 筛选数据
print(df[df['Age'] > 20])
4. 数据操作
Pandas 提供了丰富的数据操作功能,如排序、分组、聚合等。
# 排序
print(df.sort_values(by='Age'))
# 分组
print(df.groupby('Name'))
# 聚合
print(df['Age'].sum())
5. 数据可视化
Pandas 可以与 Matplotlib、Seaborn 等库结合使用进行数据可视化。
import matplotlib.pyplot as plt
df.plot(kind='bar')
plt.show()
扩展阅读
更多 Pandas 数据分析教程,请访问我们的 Pandas 教程页面。
[center]