概述
策略梯度是强化学习中一种直接优化策略的方法,通过计算策略的梯度来调整动作选择概率。与值函数方法不同,它不依赖对价值的估计,而是直接对策略进行参数化并更新参数。
核心概念
- 策略参数化:策略π用参数θ表示(如神经网络)
- 梯度上升:通过策略梯度定理更新θ,公式为:
θ_{t+1} = θ_t + α∇θJ(θ)
- 优势函数:用于减少方差的修正项,提升训练稳定性
实现步骤
- 初始化策略网络(如Actor-Critic架构)
- 收集轨迹数据(环境交互序列)
- 计算优势估计(TD-error或Generalized Advantage Estimation)
- 更新策略参数(梯度上升)
优缺点对比
优点 | 缺点 |
---|---|
直接优化策略 | 需要大量样本 |
支持连续动作空间 | 方差控制复杂 |
应用场景
- 游戏AI(如AlphaGo的策略网络)
- 机器人控制(连续动作优化)
- 自动驾驶决策系统