Pandas 是一个强大的数据分析库,它提供了快速、灵活、直观的数据结构,以及用于数据清洗、转换和分析的工具。以下是一些关于 Pandas 的基本概念和用法。
安装 Pandas
首先,您需要安装 Pandas。您可以通过以下命令进行安装:
pip install pandas
Pandas 数据结构
Pandas 提供了两种主要的数据结构:Series 和 DataFrame。
- Series 是一个一维数组,类似于 Python 中的列表。
- DataFrame 是一个二维表格,类似于 Excel 或 SQL 数据表。
Series 示例
import pandas as pd
s = pd.Series([1, 2, 3, 4, 5])
print(s)
DataFrame 示例
import pandas as pd
data = {
'Name': ['Tom', 'Nick', 'John', 'Alice'],
'Age': [20, 21, 19, 18]
}
df = pd.DataFrame(data)
print(df)
数据分析
Pandas 提供了丰富的数据分析功能,例如:
- 数据清洗
- 数据转换
- 数据聚合
- 数据可视化
数据清洗
import pandas as pd
data = {
'Name': ['Tom', 'Nick', 'John', 'Alice'],
'Age': [20, 21, 19, 18]
}
df = pd.DataFrame(data)
# 删除缺失值
df.dropna(inplace=True)
# 删除重复值
df.drop_duplicates(inplace=True)
数据转换
import pandas as pd
data = {
'Name': ['Tom', 'Nick', 'John', 'Alice'],
'Age': [20, 21, 19, 18]
}
df = pd.DataFrame(data)
# 将年龄转换为整数
df['Age'] = df['Age'].astype(int)
数据聚合
import pandas as pd
data = {
'Name': ['Tom', 'Nick', 'John', 'Alice'],
'Age': [20, 21, 19, 18]
}
df = pd.DataFrame(data)
# 计算平均年龄
average_age = df['Age'].mean()
print(average_age)
数据可视化
import pandas as pd
import matplotlib.pyplot as plt
data = {
'Name': ['Tom', 'Nick', 'John', 'Alice'],
'Age': [20, 21, 19, 18]
}
df = pd.DataFrame(data)
# 绘制柱状图
df.plot(kind='bar')
plt.show()
扩展阅读
更多关于 Pandas 的内容,您可以访问我们的官方文档。
[center]
Pandas Logo