Pandas 是 Python 中用于数据处理和分析的核心库,广泛应用于数据清洗、转换、统计等场景。无论是初学者还是有经验的数据分析师,掌握 Pandas 都是通往高效数据工作的关键一步!
1. Pandas简介
Pandas 提供了以下核心功能:
- DataFrame:二维表格型数据结构,支持行列操作
- Series:一维数组型数据结构,便于数据序列处理
- 数据清洗:处理缺失值、重复数据、格式转换
- 数据分析:统计分析、数据聚合、可视化支持
2. 安装Pandas
使用 pip 安装:
pip install pandas
或通过 conda 安装:
conda install pandas
安装完成后,可以通过以下代码验证:
import pandas as pd
print(pd.__version__)
3. 常用操作示例
数据创建
import pandas as pd
data = {'姓名': ['张三', '李四'], '年龄': [25, 30]}
df = pd.DataFrame(data)
数据查看
print(df.head()) # 查看前5行
print(df.info()) # 查看数据概览
print(df.describe()) # 查看统计信息
数据清洗
df.dropna() # 删除缺失值
df.fillna(0) # 填充缺失值
df.drop_duplicates() # 删除重复行
4. 分析案例
假设我们有销售数据,可以通过以下步骤分析:
- 读取数据:
pd.read_csv("sales_data.csv")
- 按地区统计销售额:
df.groupby("地区")["销售额"].sum()
- 可视化趋势:
df.plot(kind="line")
5. 学习资源
想了解更多Python数据分析知识?请访问我们的Python数据分析教程页面。