Pandas 是一个强大的数据分析工具,它提供了快速、灵活、直观的数据结构,用于数据分析。以下是一些关于 Pandas 的基础教程。

安装 Pandas

首先,您需要安装 Pandas。您可以使用以下命令来安装:

pip install pandas

基础操作

创建 DataFrame

DataFrame 是 Pandas 的主要数据结构,类似于 Excel 表格或 SQL 表。

import pandas as pd

data = {
    'Name': ['Tom', 'Nick', 'John'],
    'Age': [20, 21, 19],
    'City': ['New York', 'London', 'Paris']
}

df = pd.DataFrame(data)

选择数据

您可以使用 .loc.iloc 来选择 DataFrame 中的数据。

# 使用 .loc
print(df.loc[0:2, 'Name'])

# 使用 .iloc
print(df.iloc[0:2, 0])

数据清洗

数据清洗是数据分析的重要步骤。

  • 删除重复数据:df.drop_duplicates()
  • 删除缺失值:df.dropna()

高级操作

合并数据

Pandas 提供了多种合并数据的方法,如 merge, join, concat 等。

df1 = pd.DataFrame({'Name': ['Tom', 'Nick', 'John'], 'Age': [20, 21, 19]})
df2 = pd.DataFrame({'Name': ['Tom', 'Nick', 'John'], 'City': ['New York', 'London', 'Paris']})

# 使用 merge
result = pd.merge(df1, df2, on='Name')

# 使用 join
result = pd.merge(df1, df2, left_on='Name', right_on='Name', how='inner')

数据处理

Pandas 提供了丰富的数据处理功能,如排序、分组、聚合等。

  • 排序:df.sort_values(by='Age', ascending=True)
  • 分组:df.groupby('City').mean()
  • 聚合:df['Age'].sum()

扩展阅读

更多 Pandas 教程,请访问我们的 Pandas 教程页面

Pandas Logo