Pandas 是 Python 中一个强大的数据分析库,它提供了数据结构和数据分析工具,可以有效地进行数据分析。本教程将介绍 Pandas 的一些高级特性。
1. Pandas 的数据结构
Pandas 主要使用两种数据结构:Series 和 DataFrame。
- Series 是一维的数组结构,可以包含任何数据类型。
- DataFrame 是二维的数据结构,类似于 SQL 中的表格或 R 中的数据框,由列和行组成。
Series 示例
import pandas as pd
s = pd.Series([0, 1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e', 'f'])
print(s)
DataFrame 示例
import pandas as pd
data = {
'Name': ['Tom', 'Nick', 'John', 'Alice'],
'Age': [20, 21, 19, 18],
'Country': ['USA', 'UK', 'Canada', 'Australia']
}
df = pd.DataFrame(data)
print(df)
2. Pandas 的数据处理
Pandas 提供了丰富的数据处理功能,包括数据清洗、数据转换等。
数据清洗
数据清洗是数据处理的重要步骤,可以使用 Pandas 的 dropna()
、fillna()
等方法进行。
df.dropna(inplace=True) # 删除缺失值
df.fillna(0, inplace=True) # 用 0 填充缺失值
数据转换
Pandas 支持多种数据转换操作,例如类型转换、排序等。
df['Age'] = df['Age'].astype(int) # 类型转换
df.sort_values(by='Age', inplace=True) # 排序
3. 扩展阅读
如果您想了解更多关于 Pandas 的内容,可以访问 Pandas 官方文档。
Pandas Logo