Pandas 是一个强大的数据分析工具,它提供了快速、灵活、直观的数据结构,用于数据分析。以下是一些关于 Pandas 的基础教程。
安装 Pandas
首先,您需要安装 Pandas。您可以使用以下命令来安装:
pip install pandas
基础操作
创建 DataFrame
DataFrame 是 Pandas 的主要数据结构,类似于 Excel 表格或 SQL 表。
import pandas as pd
data = {
'Name': ['Tom', 'Nick', 'John'],
'Age': [20, 21, 19],
'City': ['New York', 'London', 'Paris']
}
df = pd.DataFrame(data)
选择数据
您可以使用 .loc
或 .iloc
来选择 DataFrame 中的数据。
# 使用 .loc
print(df.loc[0:2, 'Name'])
# 使用 .iloc
print(df.iloc[0:2, 0])
数据清洗
数据清洗是数据分析的重要步骤。
- 删除重复数据:
df.drop_duplicates()
- 删除缺失值:
df.dropna()
高级操作
合并数据
Pandas 提供了多种合并数据的方法,如 merge
, join
, concat
等。
df1 = pd.DataFrame({'Name': ['Tom', 'Nick', 'John'], 'Age': [20, 21, 19]})
df2 = pd.DataFrame({'Name': ['Tom', 'Nick', 'John'], 'City': ['New York', 'London', 'Paris']})
# 使用 merge
result = pd.merge(df1, df2, on='Name')
# 使用 join
result = pd.merge(df1, df2, left_on='Name', right_on='Name', how='inner')
数据处理
Pandas 提供了丰富的数据处理功能,如排序、分组、聚合等。
- 排序:
df.sort_values(by='Age', ascending=True)
- 分组:
df.groupby('City').mean()
- 聚合:
df['Age'].sum()
扩展阅读
更多 Pandas 教程,请访问我们的 Pandas 教程页面。
Pandas Logo