Pandas 操作学习指南

Pandas 是 Python 中一个强大的数据处理库，它提供了高效、灵活的数据结构，可以方便地进行数据分析。以下是一些 Pandas 操作的基础知识和技巧。

基础操作

数据导入

使用 Pandas 可以轻松地将数据导入到 DataFrame 中。以下是一些常用的数据导入方法：

CSV 文件: pandas.read_csv('file.csv')
Excel 文件: pandas.read_excel('file.xlsx')
JSON 文件: pandas.read_json('file.json')

数据选择

在 Pandas 中，可以使用多种方法选择数据：

使用列名: df['column_name']
使用行索引: df.loc[index]
使用条件筛选: df[df['column_name'] > value]

数据排序

可以使用 sort_values() 方法对数据进行排序：

df.sort_values(by='column_name', ascending=True)

数据清洗

数据清洗是数据分析的重要步骤。以下是一些常用的数据清洗方法：

删除重复值: df.drop_duplicates()
删除缺失值: df.dropna()
填充缺失值: df.fillna(value) 或 df.fillna(method='ffill')

高级操作

合并数据

Pandas 提供了多种合并数据的方法，如 merge(), join(), 和 concat()。

合并数据: df.merge(df2, on='column_name', how='inner')
连接数据: df.join(df2, on='column_name')
拼接数据: df.concat([df1, df2])

数据透视表

数据透视表是 Pandas 中一个非常有用的功能，可以方便地对数据进行汇总和计算。

df.pivot_table(index='column_name1', columns='column_name2', values='column_name3', aggfunc='sum')

实践案例

以下是一个使用 Pandas 处理数据的基本案例：

import pandas as pd

# 导入数据
data = {'Name': ['Tom', 'Nick', 'John', 'Alice'],
        'Age': [25, 30, 28, 22],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}

df = pd.DataFrame(data)

# 查看数据
print(df)

# 选择特定列
print(df['Name'])

# 条件筛选
print(df[df['Age'] > 25])

# 排序
df.sort_values(by='Age', ascending=True)

# 数据清洗
df.drop_duplicates()

# 数据合并
df1 = pd.DataFrame({'Name': ['John', 'Alice'],
                    'Age': [28, 22]})

df = pd.concat([df, df1])

扩展阅读

更多 Pandas 相关的教程和案例，可以参考我们的 Pandas 教程。希望这些内容能够帮助你更好地学习和使用 Pandas！