人工智能强化学习经典论文

强化学习（Reinforcement Learning，RL）是人工智能领域的一个重要分支，近年来在各个领域都取得了显著的进展。以下是一些经典的强化学习论文，值得一看。

经典论文列表

Q-Learning：
- Q-Learning：由Vladimir Vapnik在1998年发表，是支持向量机（SVM）的基石之一。
Policy Gradient：
- Reinforcement Learning: An Introduction：由Richard S. Sutton和Barto在1998年发表，介绍了强化学习的基本概念。
Deep Q-Network (DQN)：
- Playing Atari with Deep Reinforcement Learning：由Volodymyr Mnih等人在2013年发表，首次将深度学习与强化学习相结合。
Proximal Policy Optimization (PPO)：
- Proximal Policy Optimization Algorithms：由John Schulman等人在2017年发表，是一种高效的强化学习算法。

扩展阅读

如果您对强化学习感兴趣，可以进一步阅读以下内容：