Stable Baselines3 环境教程

Stable Baselines3 是一个用于强化学习算法实现的 Python 库，它支持多种算法，包括 PPO、A2C 等。本文将介绍如何使用 Stable Baselines3 创建和运行环境。

环境创建

首先，你需要安装 Stable Baselines3 库。你可以使用以下命令进行安装：

pip install stable-baselines3

然后，你可以创建一个环境。这里以 CartPole 环境为例：

import gym
from stable_baselines3 import PPO

# 创建环境
env = gym.make("CartPole-v1")

# 创建 PPO 模型
model = PPO("MlpPolicy", env, verbose=1)

# 训练模型
model.learn(total_timesteps=10000)

环境配置

Stable Baselines3 支持多种环境配置，包括观察空间、动作空间等。以下是一些常用的配置选项：

low 和 high：动作空间的最小值和最大值。
shape 和 dtype：观察空间的形状和数据类型。

例如，以下代码创建了一个具有自定义动作空间和观察空间的环境：

import gym
from stable_baselines3 import PPO

# 创建环境
env = gym.make("CartPole-v1")
env.action_space = gym.spaces.Box(low=np.array([-1, -1]), high=np.array([1, 1]), dtype=np.float32)
env.observation_space = gym.spaces.Box(low=np.array([-2, -2]), high=np.array([2, 2]), dtype=np.float32)

# 创建 PPO 模型
model = PPO("MlpPolicy", env, verbose=1)

# 训练模型
model.learn(total_timesteps=10000)

扩展阅读

如果你想要更深入地了解 Stable Baselines3，可以阅读以下教程：