强化学习(Reinforcement Learning, RL)作为人工智能的核心分支之一,其发展历程可追溯至20世纪50年代。以下是关键里程碑事件整理:
1950s-1980s: 奠基阶段 🏗️
- 1954:Richard Bellman提出动态规划理论,奠定RL数学基础
- 1985:Andrew Barto与Richard Sutton合著《Introduction to Reinforcement Learning》
- 1992:Q-learning算法首次被提出,由Christopher Watkins等研究者开发
1990s-2000s: 算法突破 🚀
- 1997:Deep Q-Network (DQN) 算法在Atari游戏中的成功应用
- 2005:Policy Gradient方法在连续控制任务中取得进展
- 2013:AlphaGo团队发表基于深度强化学习的围棋算法研究
- 2015:DeepMind提出Actor-Critic框架,显著提升训练效率
2010s-2020s: 爆发与融合 💡
- 2016:PPO(Proximal Policy Optimization)算法优化策略更新稳定性
- 2017:DeepMind开源DRL框架,推动研究普及
- 2018:多智能体强化学习(MARL)在合作博弈中取得突破
- 2020:Transformer架构与RL结合,开启语言模型强化学习新方向
🔗 扩展阅读:点击查看强化学习发展概述
📌 推荐资源:强化学习经典论文合集