Pandas 是 Python 中一个强大的数据分析库,它提供了快速、灵活、直观的数据结构,非常适合进行数据清洗、转换和分析。以下是一些 Pandas 数据分析的基础教程。
快速入门
安装 Pandas:确保你的 Python 环境中已经安装了 Pandas。如果没有,可以使用以下命令进行安装:
pip install pandas
创建 DataFrame:DataFrame 是 Pandas 中最核心的数据结构,类似于表格。
import pandas as pd data = { 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['New York', 'Los Angeles', 'Chicago'] } df = pd.DataFrame(data)
DataFrame 示例基本操作:你可以对 DataFrame 进行各种操作,如筛选、排序、分组等。
# 筛选年龄大于 30 的数据 df_filtered = df[df['Age'] > 30] # 按年龄排序 df_sorted = df.sort_values(by='Age')
高级功能
数据清洗:Pandas 提供了许多数据清洗的工具,如填充缺失值、删除重复项等。
# 填充缺失值 df_filled = df.fillna(value=0) # 删除重复项 df_deduplicated = df.drop_duplicates()
数据处理:Pandas 支持多种数据处理功能,如合并、重塑等。
# 合并两个 DataFrame df_merged = pd.merge(df1, df2, on='key') # 重塑 DataFrame df_melted = df.melt(id_vars=['Name'], value_vars=['Age', 'City'])
可视化:Pandas 可以与 Matplotlib 或 Seaborn 等库结合使用,进行数据可视化。
import matplotlib.pyplot as plt df.plot(kind='bar') plt.show()
更多资源
想要了解更多关于 Pandas 的内容,可以访问我们的官方文档。