Pandas 是一个强大的数据分析库,它提供了快速、灵活且易于使用的数据结构。以下是一些 Pandas 的基本教程。

安装 Pandas

在开始之前,请确保你已经安装了 Pandas。你可以使用以下命令进行安装:

pip install pandas

快速开始

创建 DataFrame

DataFrame 是 Pandas 的核心数据结构,类似于 R 中的数据框,Python 中的字典,以及 SQL 中的表。

import pandas as pd

data = {
    'Name': ['Tom', 'Nick', 'John'],
    'Age': [20, 21, 19],
    'City': ['New York', 'London', 'Paris']
}

df = pd.DataFrame(data)
print(df)

选择数据

你可以使用 .loc.iloc 来选择 DataFrame 中的数据。

# 使用 .loc
print(df.loc[0:2, 'Name'])

# 使用 .iloc
print(df.iloc[0:2, 0])

数据清洗

数据清洗是数据分析的重要步骤。Pandas 提供了多种方法来处理缺失值、重复值等。

# 删除重复值
df.drop_duplicates(inplace=True)

# 删除缺失值
df.dropna(inplace=True)

数据可视化

Pandas 与 Matplotlib 和 Seaborn 等库结合使用,可以轻松进行数据可视化。

import matplotlib.pyplot as plt

df.plot(kind='bar')
plt.show()

学习更多

想要了解更多关于 Pandas 的知识,请访问我们的 Pandas 教程 页面。

Pandas Logo