Pandas 的 groupby 是数据处理中的核心工具,可以按特定条件对数据进行分组并应用聚合操作。掌握它能显著提升数据分析效率!

✅ 核心概念

  1. 分组操作

    • 使用 groupby() 方法按列或条件分组,例如:
      df.groupby('category').mean()  
      
    • 📌 分组后可对数据进行统计分析(如 sumcountstd 等)
  2. 分组与聚合

    • 示例:计算每个类别的销售总额
      df.groupby('category')['sales'].sum()  
      
    • 📊 可结合 agg() 自定义聚合函数
  3. 分组层级

    • 多级分组:
      df.groupby(['col1', 'col2']).mean()  
      
    • 🌐 分组后可展开结果:.groups.size()

📚 扩展阅读

📌 实际应用

  • 分析销售数据:按地区、产品类型分组统计
  • 📈 处理时间序列:按月份或季度分组计算趋势
  • 🧠 与 pivot_table 结合使用,生成交互式汇总表

📌 提示:.groupby() 的性能优化技巧可参考 Pandas 高级技巧

数据分组示意图