强化学习(Reinforcement Learning, RL)作为人工智能的核心分支之一,其发展历程可追溯至20世纪50年代。以下是关键里程碑事件整理:

1950s-1980s: 奠基阶段 🏗️

  • 1954:Richard Bellman提出动态规划理论,奠定RL数学基础
  • 1985:Andrew Barto与Richard Sutton合著《Introduction to Reinforcement Learning》
    动态规划
  • 1992:Q-learning算法首次被提出,由Christopher Watkins等研究者开发

1990s-2000s: 算法突破 🚀

  • 1997:Deep Q-Network (DQN) 算法在Atari游戏中的成功应用
    DQN
  • 2005:Policy Gradient方法在连续控制任务中取得进展
  • 2013:AlphaGo团队发表基于深度强化学习的围棋算法研究
    AlphaGo
  • 2015:DeepMind提出Actor-Critic框架,显著提升训练效率

2010s-2020s: 爆发与融合 💡

  • 2016:PPO(Proximal Policy Optimization)算法优化策略更新稳定性
  • 2017:DeepMind开源DRL框架,推动研究普及
    DRL框架
  • 2018:多智能体强化学习(MARL)在合作博弈中取得突破
  • 2020:Transformer架构与RL结合,开启语言模型强化学习新方向

🔗 扩展阅读点击查看强化学习发展概述
📌 推荐资源强化学习经典论文合集

强化学习时间线
📊 若需可视化时间线,可访问 [强化学习技术演进图](/ai/papers/rl/evolution)