什么是 Actor-Critic?
Actor-Critic 是一种结合 策略梯度(Policy Gradient) 与 值函数估计(Value Function Estimation) 的强化学习算法,通过两个网络协同工作:
- Actor:直接输出动作概率分布 🎮
- Critic:评估当前状态的价值函数 📊
该方法解决了传统值迭代方法的局限性,同时保留了策略梯度的灵活性。
核心原理
1. 算法结构
graph LR
A[Actor] -->|选择动作| B[环境]
B -->|反馈| C[Critic]
C -->|评价价值| A
2. 训练流程
✅ 步骤一:Actor 根据当前策略选择动作
✅ 步骤二:与环境交互获得奖励和新状态
✅ 步骤三:Critic 评估状态价值并计算优势函数
✅ 步骤四:通过策略梯度更新 Actor 参数
✅ 步骤五:用 TD 错误更新 Critic 参数
优势与应用场景
优点 | 应用场景 |
---|---|
收敛更快 | 多智能体协作 |
更少方差 | 连续动作空间 |
可扩展性强 | 机器人控制 🤖 |
扩展阅读
想要深入理解 优势函数(Advantage Function) 的数学推导?
👉 点击这里 获取详细解析
实战示例
在 OpenAI Gym 的 CartPole 环境中,Actor-Critic 能实现:
- 更稳定的训练过程 🚀
- 更高的奖励累计值 💰
- 更少的训练步数 ⏱️