Stable Baselines3 是一个开源的强化学习库,它提供了多种强化学习算法的实现,包括 PPO(Proximal Policy Optimization)、A2C(Asynchronous Advantage Actor-Critic)和 DQN(Deep Q-Network)等。以下是一些关于 Stable Baselines3 的关键信息:

  • 算法支持:Stable Baselines3 支持 PPO、A2C 和 DQN 等多种算法。
  • 易于使用:该库提供了简单的接口,使得用户可以轻松地实现和训练强化学习模型。
  • 文档丰富:Stable Baselines3 拥有详细的文档,涵盖了安装、配置和使用等各个方面。

安装

要安装 Stable Baselines3,可以使用以下命令:

pip install stable-baselines3

快速开始

以下是一个使用 Stable Baselines3 的简单示例:

import gym
from stable_baselines3 import PPO

env = gym.make("CartPole-v1")
model = PPO("MlpPolicy", env, verbose=1)
model.learn(total_timesteps=10000)

相关资源

Stable Baselines3 Logo