数据清洗进阶 🧼
- 使用
dropna()
时可通过subset
参数指定特定列 fillna()
支持复杂填充策略(如前向填充、插值等)to_datetime()
可处理多种日期格式转换replace()
支持正则表达式替换:df.replace({'列名': {'旧值': '新值'}}, regex=True)
数据聚合技巧 📊
groupby()
支持多级分组:df.groupby(['列1', '列2'])
agg()
可自定义聚合函数:df.agg({'数值列': 'mean'})
pivot_table()
适用于复杂数据透视需求resample()
实现时间序列数据重采样
时间序列处理 📅
DatetimeIndex
支持日期范围生成:pd.date_range(start, end)
asfreq()
可转换时间频率:df.asfreq('D')
rolling()
实现滚动窗口计算:df.rolling(window=3).mean()
shift()
用于时间序列滞后分析
性能优化秘籍 ⚡
- 使用
categorical
类型提升内存效率 query()
方法加速复杂筛选join()
支持多表连接优化cache()
实现计算结果缓存
需要了解更多基础操作?点击这里前往Pandas入门指南 🚀