1. 蒙特卡洛方法(Monte Carlo Methods)
- 通过完整episode采样来估计状态价值
- 无需环境模型,适合回合制任务
- 优点:直接利用样本平均,方差控制
- 缺点:收敛速度较慢,需要完整轨迹
2. 时间差分学习(Temporal Difference Learning)
- 结合蒙特卡洛与动态规划的优势
- 通过更新规则逐步学习
- 关键公式:$V(s) \leftarrow V(s) + \alpha [r + \gamma V(s') - V(s)]$
- 适合连续环境与在线学习场景
3. 策略梯度(Policy Gradient)
- 直接优化策略参数而非价值函数
- 使用REINFORCE算法实现
- 优势:处理高维动作空间更高效
- 适用场景:Atari游戏等复杂环境
4. 深度强化学习(Deep Reinforcement Learning)
- 结合深度神经网络与强化学习
- 典型算法:DQN、PPO、A3C
- 优势:可处理高维状态空间
- 本站延伸阅读:深度强化学习实战教程
5. 分层强化学习(Hierarchical RL)
- 通过分层结构分解复杂任务
- 主要框架:Option-Critic、HER
- 优势:提升样本效率与可解释性
- 适用领域:机器人路径规划等场景
6. 多智能体强化学习(MARL)
- 研究多个智能体协作/竞争机制
- 典型范式:集中式训练分布式执行(CTDE)
- 优势:模拟真实复杂系统交互
- 适用场景:交通管制、游戏对战