Q 学习是一种无模型的强化学习算法,通过让智能体在环境中学习动作价值函数(Q 函数)来优化决策策略。以下是其核心要点:
核心思想 ✅
- 状态-动作价值函数:评估处于某状态时采取某动作的长期收益
- 贝尔曼方程:通过更新公式
Q(s,a) = r + γ * max(Q(s',a'))
迭代逼近最优策略 - 探索与利用:平衡尝试新动作(探索)与选择已知最优动作(利用)
关键特性 🔍
- 无需环境模型:直接从交互中学习
- 离散动作空间:适用于动作有限的场景
- 收敛性保障:在满足特定条件下可收敛到最优解
应用场景 🚀
- 游戏AI(如AlphaGo的辅助算法)
- 自动驾驶路径规划
- 机器人控制
- 推荐系统优化