Pandas 是一个强大的数据分析工具,它提供了快速、灵活、直观的数据结构,非常适合于进行数据清洗、转换和分析。以下是一些 Pandas 的基本教程:

安装 Pandas

首先,您需要安装 Pandas。您可以使用以下命令进行安装:

pip install pandas

基本操作

数据结构

Pandas 提供了两种主要的数据结构:DataFrameSeries

  • DataFrame 是一个表格型的数据结构,类似于 Excel 表格。
  • Series 是一个一维数组,类似于 Python 的列表。

数据导入

您可以使用 Pandas 读取各种格式的数据,例如 CSV、Excel、JSON 等。

import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('data.csv')

# 读取 Excel 文件
df = pd.read_excel('data.xlsx')

# 读取 JSON 文件
df = pd.read_json('data.json')

数据清洗

数据清洗是数据分析的重要步骤。Pandas 提供了多种方法来清洗数据。

  • 删除重复值df.drop_duplicates()
  • 填充缺失值df.fillna()
  • 删除缺失值df.dropna()

数据分析

Pandas 提供了丰富的数据分析功能。

  • 描述性统计df.describe()
  • 分组统计df.groupby().sum()
  • 条件筛选df[df['column'] > value]

实例

以下是一个简单的例子,展示了如何使用 Pandas 进行数据分析。

import pandas as pd

# 读取数据
data = {'Name': ['Tom', 'Nick', 'John', 'Alice'],
        'Age': [20, 21, 19, 18],
        'City': ['New York', 'London', 'Paris', 'Berlin']}

df = pd.DataFrame(data)

# 打印数据
print(df)

# 计算平均年龄
print(df['Age'].mean())

# 按城市分组统计年龄
print(df.groupby('City')['Age'].mean())

扩展阅读

如果您想了解更多关于 Pandas 的内容,可以访问我们的 Pandas 教程页面


Pandas