强化学习(Reinforcement Learning,RL)是机器学习的一个分支,它使机器能够通过与环境的交互来学习如何做出决策。以下是一些强化学习领域的经典论文和综述。
经典论文
- Sutton & Barto (1998): 这本书是强化学习的经典教材,详细介绍了强化学习的基本概念、算法和应用。
- Q-Learning: Q-Learning是一种值迭代算法,用于解决强化学习问题。
- Policy Gradient Methods: 政策梯度方法是一种直接优化策略的方法。
应用案例
- AlphaGo: AlphaGo 是 DeepMind 开发的一款围棋程序,它在 2016 年击败了世界围棋冠军李世石。
- OpenAI Five: OpenAI Five 是 OpenAI 开发的一款足球机器人,它在 2019 年击败了世界顶级足球机器人队伍。