Pandas 是 Python 中一个强大的数据分析库,它提供了高效、灵活的数据结构和数据分析工具。本教程将带您入门 Pandas,了解其基本用法和高级特性。
安装 Pandas
在开始之前,请确保您已经安装了 Pandas。您可以使用以下命令进行安装:
pip install pandas
数据结构
Pandas 提供了两种主要的数据结构:Series 和 DataFrame。
- Series 是一个一维数组,类似于 Python 中的列表。
- DataFrame 是一个二维表格,类似于 R 中的数据框或 SQL 中的表。
Series 示例
import pandas as pd
s = pd.Series([1, 2, 3, 4, 5])
print(s)
DataFrame 示例
import pandas as pd
data = {
'Name': ['Tom', 'Nick', 'John', 'Alice'],
'Age': [20, 21, 19, 18]
}
df = pd.DataFrame(data)
print(df)
数据读取
Pandas 可以轻松地读取各种格式的数据,如 CSV、Excel、JSON 等。
df = pd.read_csv('data.csv')
数据操作
Pandas 提供了丰富的数据操作功能,包括数据选择、数据排序、数据聚合等。
数据选择
# 选择特定列
df['Name']
# 选择特定行
df.loc[1]
# 选择多个列和行
df.loc[1:3, 'Name':'Age']
数据排序
df.sort_values(by='Age', ascending=False)
数据聚合
df.groupby('Name').mean()
高级特性
Pandas 还提供了许多高级特性,如时间序列分析、文本分析等。
时间序列分析
import pandas as pd
ts = pd.Series([1, 2, 3, 4, 5], index=pd.date_range('20210101', periods=5))
print(ts)
文本分析
import pandas as pd
text = "This is a sample text for text analysis."
df = pd.Series([text])
print(df['0'].str.split())
扩展阅读
如果您想了解更多关于 Pandas 的内容,可以访问以下链接:
Pandas Logo