什么是Pandas?
Pandas是Python中用于数据处理和分析的核心库,提供高效的数据结构(如DataFrame
和Series
)和工具,广泛应用于机器学习数据预处理阶段。
📊 核心功能:
- 数据清洗(缺失值处理、重复数据删除)
- 数据筛选与排序
- 数据聚合与统计
- 数据可视化基础支持
快速入门示例
import pandas as pd
# 创建示例数据
data = {
"姓名": ["张三", "李四", "王五"],
"年龄": [25, 30, 35],
"城市": ["北京", "上海", "广州"]
}
df = pd.DataFrame(data)
print(df)
📌 输出结果:
姓名 年龄 城市
0 张三 25 北京
1 李四 30 上海
2 王五 35 广州
常用操作
- 查看数据:
df.head()
/df.tail()
/df.info()
- 筛选数据:
df[df['年龄'] > 30]
- 排序:
df.sort_values(by='年龄', ascending=False)
- 统计:
df.describe()
/df.mean()
/df.std()
数据清洗实战
🔧 处理缺失值:
df.fillna({"年龄": 0, "城市": "未知"}, inplace=True)
🔧 删除重复数据:
df.drop_duplicates(subset=["姓名"], keep="first", inplace=True)
扩展阅读
如果需要深入学习Pandas高级功能,可访问:
/Python_ML/Tutorials/Pandas_Advanced
🔍 相关概念: