Pandas 是 Python 中一个强大的数据分析库,它提供了丰富的数据结构和数据分析工具。本教程将带您了解 Pandas 的基本使用方法。
快速入门
- 安装 Pandas:首先,您需要安装 Pandas 库。您可以使用以下命令进行安装:
pip install pandas
- 导入 Pandas:在您的 Python 脚本中导入 Pandas 库:
import pandas as pd
基本操作
创建 DataFrame
DataFrame 是 Pandas 中最核心的数据结构,类似于 R 中的数据框或 SQL 中的表。
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
选择数据
# 选择所有行和前两列
df[['Name', 'Age']]
# 选择第一行
df.iloc[0]
# 选择 Name 列中包含 'a' 的所有行
df[df['Name'].str.contains('a')]
数据清洗
# 删除包含缺失值的行
df.dropna()
# 填充缺失值
df.fillna(value='Unknown')
# 删除重复行
df.drop_duplicates()
高级操作
合并数据
df1 = pd.DataFrame({'Name': ['Alice', 'Bob'], 'Age': [25, 30]})
df2 = pd.DataFrame({'Name': ['Alice', 'Bob'], 'City': ['New York', 'Los Angeles']})
# 按照 Name 列合并数据
df = pd.merge(df1, df2, on='Name')
数据透视表
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
'Score': [85, 90, 95, 88, 92]
}
df = pd.DataFrame(data)
# 创建数据透视表
pivot_table = df.pivot_table(values='Score', index='Name', aggfunc='mean')
扩展阅读
更多关于 Pandas 的内容,您可以访问我们的 Pandas 教程。