Pandas 是 Python 中一个强大的数据分析库,它提供了丰富的数据结构和数据分析工具。本教程将带您了解 Pandas 的基本使用方法。

快速入门

  1. 安装 Pandas:首先,您需要安装 Pandas 库。您可以使用以下命令进行安装:
    pip install pandas
    
  2. 导入 Pandas:在您的 Python 脚本中导入 Pandas 库:
    import pandas as pd
    

基本操作

创建 DataFrame

DataFrame 是 Pandas 中最核心的数据结构,类似于 R 中的数据框或 SQL 中的表。

data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}

df = pd.DataFrame(data)

选择数据

# 选择所有行和前两列
df[['Name', 'Age']]

# 选择第一行
df.iloc[0]

# 选择 Name 列中包含 'a' 的所有行
df[df['Name'].str.contains('a')]

数据清洗

# 删除包含缺失值的行
df.dropna()

# 填充缺失值
df.fillna(value='Unknown')

# 删除重复行
df.drop_duplicates()

高级操作

合并数据

df1 = pd.DataFrame({'Name': ['Alice', 'Bob'], 'Age': [25, 30]})
df2 = pd.DataFrame({'Name': ['Alice', 'Bob'], 'City': ['New York', 'Los Angeles']})

# 按照 Name 列合并数据
df = pd.merge(df1, df2, on='Name')

数据透视表

data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'Score': [85, 90, 95, 88, 92]
}

df = pd.DataFrame(data)

# 创建数据透视表
pivot_table = df.pivot_table(values='Score', index='Name', aggfunc='mean')

扩展阅读

更多关于 Pandas 的内容,您可以访问我们的 Pandas 教程


图片

  • Python_ML_Pandas_Tutorial