Pandas 是 Python 中一个强大的数据分析库,它提供了高效的数据结构和数据分析工具。本教程将带你入门 Pandas,了解其基本用法和高级特性。

安装 Pandas

首先,你需要确保你的 Python 环境中安装了 Pandas。你可以使用以下命令进行安装:

pip install pandas

基本数据结构

Pandas 提供了两种基本的数据结构:SeriesDataFrame

  • Series:类似于 Python 中的列表,但具有轴标签。
  • DataFrame:类似于表格,包含行和列,可以看作是 Series 的二维扩展。

Series 示例

import pandas as pd

# 创建一个 Series
s = pd.Series([1, 2, 3, 4, 5])

# 输出 Series
print(s)

DataFrame 示例

import pandas as pd

# 创建一个 DataFrame
data = {
    'Name': ['Tom', 'Nick', 'John', 'Alice'],
    'Age': [20, 21, 19, 18]
}

df = pd.DataFrame(data)

# 输出 DataFrame
print(df)

数据操作

Pandas 提供了丰富的数据操作功能,包括数据选择、数据合并、数据清洗等。

数据选择

# 选择 DataFrame 的特定列
print(df['Name'])

# 选择 DataFrame 的特定行
print(df.loc[1])

数据合并

# 合并两个 DataFrame
df2 = pd.DataFrame({'Name': ['Bob', 'Alice'], 'Age': [22, 20]})

df = pd.concat([df, df2], ignore_index=True)
print(df)

高级特性

Pandas 还提供了许多高级特性,例如时间序列分析、统计建模等。

时间序列分析

import pandas as pd

# 创建一个时间序列
ts = pd.Series([1, 2, 3, 4, 5], index=pd.date_range('20210101', periods=5))

# 输出时间序列
print(ts)

统计建模

import pandas as pd
from sklearn.linear_model import LinearRegression

# 创建一个线性回归模型
model = LinearRegression()

# 训练模型
model.fit(df[['Age']], df['Name'])

# 预测
print(model.predict([[25]]))

扩展阅读

想要了解更多关于 Pandas 的知识,可以阅读以下文章:

希望这个教程能帮助你入门 Pandas,祝你学习愉快!🎉