Q-Learning 是一种无模型的强化学习算法,通过让智能体在环境中学习动作与状态之间的关联来优化决策策略。其核心思想是通过Q值表(Q-table)记录每个状态-动作对的预期回报,最终找到最大化长期奖励的最优策略。

核心原理简述

  • Q值更新公式
    $ Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s',a') - Q(s,a)] $
    其中:

    • s 为当前状态,a 为当前动作
    • r 为即时奖励,γ 为折扣因子
    • α 为学习率,s' 为下一状态
  • 无需环境模型:直接通过与环境的交互学习,无需预先知道状态转移概率

  • 离散动作空间:适合动作有限的场景(如游戏中的指令选择)

应用场景举例

  • 🕹 游戏AI(如棋类、迷宫导航)
  • 🚗 自动驾驶路径规划
  • 🧠 机器人任务调度

与其他算法对比

特性 Q-Learning DQN(深度Q网络)
环境模型 有(通过神经网络)
动作空间 离散 连续(可扩展)
训练效率 低(状态离散) 高(使用深度学习)

深入学习推荐

想了解更多?可查看Q-Learning 的进阶实现强化学习经典案例

Q_learning_流程图
强化学习_应用场景