策略梯度(Policy Gradient)是强化学习中一种直接优化策略的方法,通过梯度上升算法调整策略参数以最大化期望回报。以下是核心要点:
⚙️ 基本原理
- 策略表示:将策略建模为参数化的函数(如神经网络),例如:
π(a|s, θ)
表示在状态s
下采取动作a
的概率
- 目标函数:最大化长期累积奖励
- $ J(\theta) = \mathbb{E} \left[ \sum_{t=0}^T r_t \right] $
- 梯度估计:通过采样数据计算策略梯度,常用方法包括:
- REINFORCE(蒙特卡洛策略梯度)
- Actor-Critic(时序差分策略梯度)
📊 关键公式
- 策略梯度定理:
$ \nabla_\theta J(\theta) = \mathbb{E} \left[ \nabla_\theta \log \pi(a_t|s_t, \theta) \cdot \left( \sum_{t'=t}^T r_{t'} \right) \right] $ - 更新规则:
$ \theta_{t+1} = \theta_t + \alpha \nabla_\theta J(\theta) $
🧠 优势与挑战
优势 | 挑战 |
---|---|
直接优化策略,无需价值函数 | 高方差问题 |
可处理连续动作空间 | 需要大量样本 |
🌐 扩展阅读
- 探索Actor-Critic算法:策略梯度的改进方法
- 深度强化学习实践:结合神经网络的进阶教程