什么是Pandas?

Pandas是Python中用于数据处理和分析的核心库,提供高效的数据结构(如DataFrameSeries)和工具,广泛应用于机器学习数据预处理阶段。
📊 核心功能

  • 数据清洗(缺失值处理、重复数据删除)
  • 数据筛选与排序
  • 数据聚合与统计
  • 数据可视化基础支持

快速入门示例

import pandas as pd

# 创建示例数据
data = {
    "姓名": ["张三", "李四", "王五"],
    "年龄": [25, 30, 35],
    "城市": ["北京", "上海", "广州"]
}
df = pd.DataFrame(data)
print(df)

📌 输出结果

   姓名  年龄 城市
0  张三   25  北京
1  李四   30  上海
2  王五   35  广州

常用操作

  • 查看数据df.head() / df.tail() / df.info()
  • 筛选数据df[df['年龄'] > 30]
  • 排序df.sort_values(by='年龄', ascending=False)
  • 统计df.describe() / df.mean() / df.std()

数据清洗实战

🔧 处理缺失值

df.fillna({"年龄": 0, "城市": "未知"}, inplace=True)

🔧 删除重复数据

df.drop_duplicates(subset=["姓名"], keep="first", inplace=True)

扩展阅读

如果需要深入学习Pandas高级功能,可访问:
/Python_ML/Tutorials/Pandas_Advanced

🔍 相关概念

Pandas_DataFrame
Data_Cleaning_Process