Pandas 的 groupby
是数据处理中的核心工具,可以按特定条件对数据进行分组并应用聚合操作。掌握它能显著提升数据分析效率!
✅ 核心概念
分组操作
- 使用
groupby()
方法按列或条件分组,例如:df.groupby('category').mean()
- 📌 分组后可对数据进行统计分析(如
sum
、count
、std
等)
- 使用
分组与聚合
- 示例:计算每个类别的销售总额
df.groupby('category')['sales'].sum()
- 📊 可结合
agg()
自定义聚合函数
- 示例:计算每个类别的销售总额
分组层级
- 多级分组:
df.groupby(['col1', 'col2']).mean()
- 🌐 分组后可展开结果:
.groups
或.size()
- 多级分组:
📚 扩展阅读
- 如需深入了解 Pandas 的其他操作,可访问 Pandas 基础教程
- 📌 数据分组示意图
📌 实际应用
- 分析销售数据:按地区、产品类型分组统计
- 📈 处理时间序列:按月份或季度分组计算趋势
- 🧠 与
pivot_table
结合使用,生成交互式汇总表
📌 提示:
.groupby()
的性能优化技巧可参考 Pandas 高级技巧
数据分组示意图