📝 1. Q-Learning (1989)
- 作者: Christopher J. C. H. Watkins
- 摘要: 该论文提出Q-learning算法,是首个无需环境模型即可学习最优策略的无模型强化学习方法。通过贝尔曼方程迭代更新Q值,实现了在未知环境中自主探索与利用的突破。
- 了解更多
🔍 2. Deep Q-Networks (2015)
- 作者: Hado van Hasselt et al.
- 摘要: 将深度神经网络与Q-learning结合,解决了传统Q-learning在高维状态空间中的局限性。通过经验回放和目标网络稳定训练过程,显著提升了复杂任务的性能。
- 查看实验代码
🧠 3. Policy Gradient Methods (2000)
- 作者: David Silver
- 摘要: 该论文系统阐述了策略梯度理论,通过直接优化策略参数实现策略改进。相比价值函数方法,策略梯度在连续动作空间中表现出更强的适应性。
- 深入阅读
📈 4. Proximal Policy Optimization (2017)
- 作者: John Schulman et al.
- 摘要: 提出PPO算法,通过引入重要性采样和裁剪机制,在策略优化中平衡了探索与利用。该方法在多个基准测试中展现出优异的稳定性和性能。
- 查看最新进展
🌐 扩展阅读
如需了解强化学习的入门知识,可访问 /papers/rl-intro 获取详细教程。