Pandas 是 Python 中一个强大的数据分析库,它提供了快速、灵活、直观的数据结构和数据分析工具。以下是一些关于 Python Pandas 数据分析的基础教程。

基础概念

  • Series 和 DataFrame:Pandas 的核心数据结构,用于存储和操作数据。
  • 索引(Indexing):如何有效地访问和修改数据。
  • 数据处理:如何清洗、转换和合并数据。

快速开始

  1. 安装 Pandas:

    pip install pandas
    
  2. 导入 Pandas:

    import pandas as pd
    
  3. 创建一个 DataFrame:

    data = {
        'Name': ['Tom', 'Nick', 'John'],
        'Age': [20, 21, 19],
        'City': ['New York', 'London', 'Paris']
    }
    df = pd.DataFrame(data)
    

实例教程

数据清洗

在数据分析中,数据清洗是一个重要的步骤。以下是如何使用 Pandas 进行数据清洗的示例:

# 假设我们有一个包含缺失值的 DataFrame
df = pd.DataFrame({
    'Name': ['Tom', None, 'John', 'Alice'],
    'Age': [20, 21, None, 19],
    'City': ['New York', 'London', 'Paris', 'Berlin']
})

# 删除缺失值
df.dropna(inplace=True)

# 填充缺失值
df.fillna('Unknown', inplace=True)

数据分析

Pandas 提供了丰富的数据分析工具,以下是如何进行数据分析的示例:

# 计算年龄的平均值
mean_age = df['Age'].mean()

# 统计每个城市的数量
city_counts = df['City'].value_counts()

# 打印结果
print(f"平均年龄: {mean_age}")
print("城市数量统计:")
print(city_counts)

扩展阅读

更多关于 Pandas 的教程和资源,请访问本站 Pandas 教程

Pandas Logo