策略梯度(Policy Gradient)是强化学习中一种直接优化策略的方法,通过梯度上升算法调整策略参数以最大化期望回报。以下是核心要点:

⚙️ 基本原理

  • 策略表示:将策略建模为参数化的函数(如神经网络),例如:
    • π(a|s, θ) 表示在状态s下采取动作a的概率
  • 目标函数:最大化长期累积奖励
    • $ J(\theta) = \mathbb{E} \left[ \sum_{t=0}^T r_t \right] $
  • 梯度估计:通过采样数据计算策略梯度,常用方法包括:
    • REINFORCE(蒙特卡洛策略梯度)
    • Actor-Critic(时序差分策略梯度)

📊 关键公式

  1. 策略梯度定理
    $ \nabla_\theta J(\theta) = \mathbb{E} \left[ \nabla_\theta \log \pi(a_t|s_t, \theta) \cdot \left( \sum_{t'=t}^T r_{t'} \right) \right] $
  2. 更新规则
    $ \theta_{t+1} = \theta_t + \alpha \nabla_\theta J(\theta) $

🧠 优势与挑战

优势 挑战
直接优化策略,无需价值函数 高方差问题
可处理连续动作空间 需要大量样本

🌐 扩展阅读

策略梯度
神经网络_结构
优化算法_流程