1. 蒙特卡洛方法(Monte Carlo Methods)

  • 通过完整episode采样来估计状态价值
  • 无需环境模型,适合回合制任务
  • 优点:直接利用样本平均,方差控制
  • 缺点:收敛速度较慢,需要完整轨迹
蒙特卡洛方法

2. 时间差分学习(Temporal Difference Learning)

  • 结合蒙特卡洛与动态规划的优势
  • 通过更新规则逐步学习
  • 关键公式:$V(s) \leftarrow V(s) + \alpha [r + \gamma V(s') - V(s)]$
  • 适合连续环境与在线学习场景
时间差分学习

3. 策略梯度(Policy Gradient)

  • 直接优化策略参数而非价值函数
  • 使用REINFORCE算法实现
  • 优势:处理高维动作空间更高效
  • 适用场景:Atari游戏等复杂环境
策略梯度

4. 深度强化学习(Deep Reinforcement Learning)

  • 结合深度神经网络与强化学习
  • 典型算法:DQN、PPO、A3C
  • 优势:可处理高维状态空间
  • 本站延伸阅读:深度强化学习实战教程
深度强化学习

5. 分层强化学习(Hierarchical RL)

  • 通过分层结构分解复杂任务
  • 主要框架:Option-Critic、HER
  • 优势:提升样本效率与可解释性
  • 适用领域:机器人路径规划等场景
分层强化学习

6. 多智能体强化学习(MARL)

  • 研究多个智能体协作/竞争机制
  • 典型范式:集中式训练分布式执行(CTDE)
  • 优势:模拟真实复杂系统交互
  • 适用场景:交通管制、游戏对战
多智能体强化学习