什么是 Q 学习?

Q 学习(Q-Learning)是一种经典的无模型强化学习算法,通过学习状态-动作对的预期回报值(Q 值)来优化决策策略。它无需环境模型,直接通过与环境的交互更新 Q 表,是解决动态规划问题的常用方法之一。

核心概念 📚

  • Q 值:表示在状态 s 下采取动作 a 的长期回报预测
    Q_Learning_illustration
  • 贝尔曼方程:更新 Q 值的核心公式
    $ Q(s, a) = R(s, a) + \gamma \max_{a'} Q(s', a') $
  • 探索与利用:通过 ε-greedy 策略平衡尝试新动作与选择已知最优动作

算法步骤 📝

  1. 初始化 Q 表为全零
  2. 对每个状态-动作对,迭代更新 Q 值
  3. 使用最大 Q 值选择下一动作
  4. 根据环境反馈调整策略

应用场景 🚀

  • 游戏 AI(如棋类、Atari 游戏)
    强化学习_游戏应用
  • 机器人路径规划
  • 自动化决策系统

扩展阅读 📘

通过持续训练,Q 学习能够让智能体在未知环境中自主学习最优策略!