什么是 Q 学习?
Q 学习(Q-Learning)是一种经典的无模型强化学习算法,通过学习状态-动作对的预期回报值(Q 值)来优化决策策略。它无需环境模型,直接通过与环境的交互更新 Q 表,是解决动态规划问题的常用方法之一。
核心概念 📚
- Q 值:表示在状态
s
下采取动作a
的长期回报预测 - 贝尔曼方程:更新 Q 值的核心公式
$ Q(s, a) = R(s, a) + \gamma \max_{a'} Q(s', a') $ - 探索与利用:通过 ε-greedy 策略平衡尝试新动作与选择已知最优动作
算法步骤 📝
- 初始化 Q 表为全零
- 对每个状态-动作对,迭代更新 Q 值
- 使用最大 Q 值选择下一动作
- 根据环境反馈调整策略
应用场景 🚀
- 游戏 AI(如棋类、Atari 游戏)
- 机器人路径规划
- 自动化决策系统
扩展阅读 📘
通过持续训练,Q 学习能够让智能体在未知环境中自主学习最优策略!