Pandas 教程

Pandas 是 Python 中一个强大的数据分析库，它提供了快速、灵活和直观的数据结构，用于数据分析。以下是一些 Pandas 的基本教程，帮助您开始使用这个强大的工具。

安装 Pandas

首先，确保您已经安装了 Pandas。您可以通过以下命令安装：

pip install pandas

基础操作

创建 DataFrame

DataFrame 是 Pandas 中的主要数据结构，类似于 R 中的数据框或 Excel 中的表格。

import pandas as pd

data = {
    'Name': ['Tom', 'Nick', 'John'],
    'Age': [20, 21, 19],
    'City': ['New York', 'London', 'Paris']
}

df = pd.DataFrame(data)

选择数据

您可以使用 .loc[] 或 .iloc[] 来选择 DataFrame 中的数据。

# 使用 .loc[] 选择
print(df.loc[0, 'Name'])  # 输出: Tom

# 使用 .iloc[] 选择
print(df.iloc[1, 0])  # 输出: Nick

数据清洗

数据清洗是数据分析的重要部分。以下是一些常用的数据清洗方法：

删除缺失值
替换异常值
删除重复行

# 删除缺失值
df.dropna(inplace=True)

# 替换异常值
df.replace(to_replace=[100, 200], value=[None], inplace=True)

# 删除重复行
df.drop_duplicates(inplace=True)

高级功能

数据合并

Pandas 提供了多种数据合并的方法，如 merge(), join() 和 concat()。

df2 = pd.DataFrame({'Name': ['Tom', 'Nick', 'John'], 'Score': [80, 90, 70]})

# 使用 merge 合并
result = pd.merge(df, df2, on='Name')

数据透视表

数据透视表是一种用于汇总数据的工具，可以快速计算总和、平均值、计数等。

pivot_table = df.pivot_table(values='Score', index='City', aggfunc='mean')

图片示例

下面是一张 Pandas DataFrame 的示例图片。