📌 什么是策略梯度?
策略梯度(Policy Gradient)是深度强化学习的核心方法之一,直接对策略函数进行优化。与基于价值的方法不同,它通过策略网络直接学习动作选择策略,适用于连续动作空间和复杂决策场景。
🧠 核心概念
- 策略函数:π(a|s) 表示在状态 s 下选择动作 a 的概率
- 梯度上升:通过计算策略参数的梯度,迭代更新参数以最大化期望回报
- 优势函数:A(s,a) = Q(s,a) - V(s),用于减少策略更新的方差
- REINFORCE算法:基础策略梯度方法,结合蒙特卡洛估计进行策略优化
🖼️ 图解说明
🛠️ 实现步骤
- 构建策略网络:输入状态 s,输出动作概率分布
- 收集轨迹:通过策略网络与环境交互,记录状态-动作-奖励序列
- 计算回报:使用折扣因子 γ 计算每个状态的累积奖励
- 梯度更新:根据策略梯度定理更新网络参数
# 示例伪代码 policy_gradient = expected_return * log_prob_actions parameters += learning_rate * policy_gradient
🚀 应用场景
- 机器人控制(如机械臂抓取)
- 游戏AI(如AlphaGo的策略部分)
- 自动驾驶决策系统
- 资源分配与调度优化
🔍 扩展阅读
想要深入了解基于价值的DRL方法?可以前往 /tutorials/drl-reinforce 查看对比教程。