强化学习作为机器学习的一个重要分支,近年来在人工智能领域取得了显著进展。以下是一些强化学习的经典论文,供您参考:

  • Q-Learning (1992)

    • 作者:Richard S. Sutton 和 Andrew G. Barto
    • 简介:这篇论文提出了 Q-Learning 算法,它是第一个有效的强化学习算法之一,通过将状态-动作值函数进行迭代更新来学习最优策略。
  • Policy Gradient Methods for Reinforcement Learning with Function Approximation (1998)

    • 作者:Andrew G. Barto, Richard S. Sutton 和 Christopher J. C. Huggins
    • 简介:这篇论文介绍了策略梯度方法,它是基于策略的学习算法,通过优化策略函数来改进学习过程。
  • Deep Q-Network (DQN) (2015)

    • 作者:Volodymyr Mnih 等
    • 简介:这篇论文提出了 DQN,一种基于深度学习的强化学习算法。DQN 在许多复杂的游戏环境中实现了超人类的表现。
  • Asynchronous Advantage Actor-Critic (A3C) (2016)

    • 作者:Tom Schaul 等
    • 简介:这篇论文提出了 A3C,一种异步的 actor-critic 算法,通过并行训练多个智能体来提高学习效率。
  • Proximal Policy Optimization (PPO) (2017)

    • 作者:Sungwon Lee 等
    • 简介:这篇论文提出了 PPO,一种基于策略梯度的强化学习算法,通过限制梯度更新来稳定学习过程。

[更多关于强化学习的信息,请访问我们的 强化学习教程]。

强化学习图解