Pandas 是 Python 中一个强大的数据分析库,它提供了高效的数据结构和数据分析工具。本教程将带你入门 Pandas,了解其基本用法和高级特性。
安装 Pandas
首先,你需要确保你的 Python 环境中安装了 Pandas。你可以使用以下命令进行安装:
pip install pandas
基本数据结构
Pandas 提供了两种基本的数据结构:Series
和 DataFrame
。
- Series:类似于 Python 中的列表,但具有轴标签。
- DataFrame:类似于表格,包含行和列,可以看作是 Series 的二维扩展。
Series 示例
import pandas as pd
# 创建一个 Series
s = pd.Series([1, 2, 3, 4, 5])
# 输出 Series
print(s)
DataFrame 示例
import pandas as pd
# 创建一个 DataFrame
data = {
'Name': ['Tom', 'Nick', 'John', 'Alice'],
'Age': [20, 21, 19, 18]
}
df = pd.DataFrame(data)
# 输出 DataFrame
print(df)
数据操作
Pandas 提供了丰富的数据操作功能,包括数据选择、数据合并、数据清洗等。
数据选择
# 选择 DataFrame 的特定列
print(df['Name'])
# 选择 DataFrame 的特定行
print(df.loc[1])
数据合并
# 合并两个 DataFrame
df2 = pd.DataFrame({'Name': ['Bob', 'Alice'], 'Age': [22, 20]})
df = pd.concat([df, df2], ignore_index=True)
print(df)
高级特性
Pandas 还提供了许多高级特性,例如时间序列分析、统计建模等。
时间序列分析
import pandas as pd
# 创建一个时间序列
ts = pd.Series([1, 2, 3, 4, 5], index=pd.date_range('20210101', periods=5))
# 输出时间序列
print(ts)
统计建模
import pandas as pd
from sklearn.linear_model import LinearRegression
# 创建一个线性回归模型
model = LinearRegression()
# 训练模型
model.fit(df[['Age']], df['Name'])
# 预测
print(model.predict([[25]]))
扩展阅读
想要了解更多关于 Pandas 的知识,可以阅读以下文章:
希望这个教程能帮助你入门 Pandas,祝你学习愉快!🎉