什么是 Actor-Critic?

Actor-Critic 是一种结合 策略梯度(Policy Gradient)值函数估计(Value Function Estimation) 的强化学习算法,通过两个网络协同工作:

  • Actor:直接输出动作概率分布 🎮
  • Critic:评估当前状态的价值函数 📊

该方法解决了传统值迭代方法的局限性,同时保留了策略梯度的灵活性。

核心原理

1. 算法结构

graph LR
    A[Actor] -->|选择动作| B[环境]
    B -->|反馈| C[Critic]
    C -->|评价价值| A

2. 训练流程

步骤一:Actor 根据当前策略选择动作
步骤二:与环境交互获得奖励和新状态
步骤三:Critic 评估状态价值并计算优势函数
步骤四:通过策略梯度更新 Actor 参数
步骤五:用 TD 错误更新 Critic 参数

优势与应用场景

优点 应用场景
收敛更快 多智能体协作
更少方差 连续动作空间
可扩展性强 机器人控制 🤖

扩展阅读

想要深入理解 优势函数(Advantage Function) 的数学推导?
👉 点击这里 获取详细解析

实战示例

OpenAI Gym 的 CartPole 环境中,Actor-Critic 能实现:

  • 更稳定的训练过程 🚀
  • 更高的奖励累计值 💰
  • 更少的训练步数 ⏱️
Actor_Critic
*图示:Actor-Critic 算法的协同工作机制*