以下是一些强化学习领域的经典论文,希望对您的研究有所帮助。

1. Q-Learning

Q-Learning 是一种无监督学习方法,通过与环境交互来学习最优策略。

2. Deep Q-Network (DQN)

DQN 是一种将深度学习与 Q-Learning 结合起来的方法,通过神经网络来逼近 Q 函数。

3. Policy Gradient

Policy Gradient 方法通过直接优化策略来学习最优策略。

4. Actor-Critic

Actor-Critic 方法结合了 Policy Gradient 和 Q-Learning 的优点,通过分离策略学习和值函数学习来提高学习效率。

5. Asynchronous Advantage Actor-Critic (A3C)

A3C 是一种异步的 Actor-Critic 方法,通过并行处理来加速学习过程。

图片展示

1. 强化学习算法图解

Reinforcement Learning Algorithm Infographic

2. 深度学习与强化学习结合

Deep Learning and Reinforcement Learning