Pandas 是一个强大的 Python 数据分析库,它提供了高效的数据结构和数据操作工具,可以让我们轻松地进行数据清洗、分析、转换等操作。以下是 Pandas 的基础教程,帮助您快速上手。

安装 Pandas

首先,确保您已经安装了 Python。接下来,通过以下命令安装 Pandas:

pip install pandas

Pandas 基础操作

创建 DataFrame

DataFrame 是 Pandas 中最核心的数据结构,类似于 R 中的数据框,或 Excel 中的表格。以下是一个简单的例子:

import pandas as pd

data = {'Name': ['Tom', 'Nick', 'John'], 'Age': [20, 21, 19]}
df = pd.DataFrame(data)
print(df)

选择和过滤数据

您可以使用 .loc[].iloc[] 来选择和过滤 DataFrame 中的数据。

print(df.loc[df['Age'] > 20])  # 选择年龄大于20的数据
print(df.iloc[1:3])            # 选择第2和第3行数据

数据清洗

数据清洗是数据分析中非常重要的一步,以下是一些常用的数据清洗方法:

  • 删除重复数据
  • 删除缺失值
  • 转换数据类型
df.drop_duplicates(inplace=True)  # 删除重复数据
df.dropna(inplace=True)          # 删除缺失值
df['Age'] = df['Age'].astype(int)  # 转换数据类型

数据合并

Pandas 提供了多种数据合并的方法,例如 merge()join() 等。

df2 = pd.DataFrame({'Name': ['Alice', 'Bob'], 'Gender': ['Female', 'Male']})
print(pd.merge(df, df2, on='Name'))  # 通过 'Name' 列合并数据

数据可视化

Pandas 可以与 Matplotlib 或 Seaborn 等库结合使用,进行数据可视化。

import matplotlib.pyplot as plt

df.plot(kind='bar')  # 绘制柱状图
plt.show()

扩展阅读

想要更深入地了解 Pandas,可以参考以下教程:

希望这份 Pandas 教程对您有所帮助!📚

Pandas Logo