Pandas 是一个 Python 库,用于数据分析。它提供了高效、灵活的数据结构,可以方便地处理和分析数据。以下是 Pandas 教程的简要概述。
安装 Pandas
在开始之前,请确保您已经安装了 Pandas。您可以使用以下命令进行安装:
pip install pandas
Pandas 数据结构
Pandas 提供了两种主要的数据结构:DataFrame
和 Series
。
- DataFrame:类似于表格的数据结构,包含行和列。
- Series:类似于数组的数据结构,包含一个索引和一组数据。
创建 DataFrame
以下是如何创建一个简单的 DataFrame:
import pandas as pd
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
查看数据
您可以使用 head()
、tail()
或 info()
方法来查看 DataFrame 的前几行、后几行或信息。
print(df.head())
print(df.tail())
print(df.info())
选择数据
您可以使用 .loc[]
和 .iloc[]
来选择 DataFrame 中的数据。
print(df.loc[0:2, 'Name': 'City'])
print(df.iloc[1:3, 0:2])
操作数据
Pandas 提供了丰富的操作方法,如筛选、排序、分组等。
print(df[df['Age'] > 30])
df.sort_values(by='Age', ascending=False, inplace=True)
print(df.groupby('City').mean())
数据可视化
Pandas 可以与 Matplotlib 或 Seaborn 等库结合使用,进行数据可视化。
import matplotlib.pyplot as plt
df.plot(kind='bar')
plt.show()
扩展阅读
如果您想了解更多关于 Pandas 的知识,请访问以下链接:
Data Science