📚 强化学习经典论文合集

reinforcement_learning

📝 1. Q-Learning (1989)

作者: Christopher J. C. H. Watkins
摘要: 该论文提出Q-learning算法，是首个无需环境模型即可学习最优策略的无模型强化学习方法。通过贝尔曼方程迭代更新Q值，实现了在未知环境中自主探索与利用的突破。
了解更多

🔍 2. Deep Q-Networks (2015)

作者: Hado van Hasselt et al.
摘要: 将深度神经网络与Q-learning结合，解决了传统Q-learning在高维状态空间中的局限性。通过经验回放和目标网络稳定训练过程，显著提升了复杂任务的性能。
查看实验代码

🧠 3. Policy Gradient Methods (2000)

作者: David Silver
摘要: 该论文系统阐述了策略梯度理论，通过直接优化策略参数实现策略改进。相比价值函数方法，策略梯度在连续动作空间中表现出更强的适应性。
深入阅读

📈 4. Proximal Policy Optimization (2017)

作者: John Schulman et al.
摘要: 提出PPO算法，通过引入重要性采样和裁剪机制，在策略优化中平衡了探索与利用。该方法在多个基准测试中展现出优异的稳定性和性能。
查看最新进展

🌐 扩展阅读

如需了解强化学习的入门知识，可访问 /papers/rl-intro 获取详细教程。