Pandas 是 Python 中一个强大的数据分析库,它提供了数据结构 DataFrame
,使得数据处理变得更加容易。以下是一些 Pandas 数据处理的基本教程。
1. 安装 Pandas
在开始之前,请确保已经安装了 Pandas。如果没有安装,可以通过以下命令进行安装:
pip install pandas
2. 创建 DataFrame
DataFrame 是 Pandas 的核心数据结构,它类似于一个表格,由行和列组成。
import pandas as pd
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)
3. 选择数据
你可以使用 .loc
或 .iloc
来选择 DataFrame 中的数据。
# 使用 .loc
print(df.loc[0:2, 'Name'])
# 使用 .iloc
print(df.iloc[1:3, 1:])
4. 数据清洗
数据清洗是数据处理的重要步骤,以下是一些常见的数据清洗方法:
- 删除缺失值
- 填充缺失值
- 删除重复值
# 删除缺失值
df.dropna(inplace=True)
# 填充缺失值
df.fillna('Unknown', inplace=True)
# 删除重复值
df.drop_duplicates(inplace=True)
5. 数据转换
Pandas 提供了许多数据转换的方法,例如:
- 转换数据类型
- 切分和合并数据
- 重新排列数据
# 转换数据类型
df['Age'] = df['Age'].astype(int)
# 切分和合并数据
df1 = df.loc[df['City'] == 'New York']
df2 = df.loc[df['City'] == 'Los Angeles']
df3 = pd.concat([df1, df2])
# 重新排列数据
df = df[['City', 'Name', 'Age']]
6. 统计分析
Pandas 提供了丰富的统计分析功能,例如:
- 计算平均值、中位数、标准差等
- 计算描述性统计
# 计算平均值
print(df['Age'].mean())
# 计算描述性统计
print(df.describe())
扩展阅读
想了解更多关于 Pandas 的内容,可以访问我们的 Pandas 教程 页面。
Pandas Logo