Pandas 教程

Pandas 是一个强大的数据分析工具，它提供了快速、灵活、直观的数据结构，非常适合于进行数据清洗、转换和分析。以下是一些 Pandas 的基本教程：

安装 Pandas

首先，您需要安装 Pandas。您可以使用以下命令进行安装：

pip install pandas

基本操作

数据结构

Pandas 提供了两种主要的数据结构：DataFrame 和 Series。

DataFrame 是一个表格型的数据结构，类似于 Excel 表格。
Series 是一个一维数组，类似于 Python 的列表。

数据导入

您可以使用 Pandas 读取各种格式的数据，例如 CSV、Excel、JSON 等。

import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 读取 Excel 文件
df = pd.read_excel('data.xlsx')

# 读取 JSON 文件
df = pd.read_json('data.json')

数据清洗

数据清洗是数据分析的重要步骤。Pandas 提供了多种方法来清洗数据。

删除重复值：df.drop_duplicates()
填充缺失值：df.fillna()
删除缺失值：df.dropna()

数据分析

Pandas 提供了丰富的数据分析功能。

描述性统计：df.describe()
分组统计：df.groupby().sum()
条件筛选：df[df['column'] > value]

实例

以下是一个简单的例子，展示了如何使用 Pandas 进行数据分析。

import pandas as pd

# 读取数据
data = {'Name': ['Tom', 'Nick', 'John', 'Alice'],
        'Age': [20, 21, 19, 18],
        'City': ['New York', 'London', 'Paris', 'Berlin']}

df = pd.DataFrame(data)

# 打印数据
print(df)

# 计算平均年龄
print(df['Age'].mean())

# 按城市分组统计年龄
print(df.groupby('City')['Age'].mean())

扩展阅读

如果您想了解更多关于 Pandas 的内容，可以访问我们的 Pandas 教程页面。