入门级代码实践

  1. Q-learning 基础
    通过经典网格世界案例实现值迭代算法

    Q_learning
    [点击查看完整Python实现](/rl/quickstart)
  2. Deep Q-Network (DQN)
    使用TensorFlow构建经验回放机制

    Deep_Q_Network
    [探索CartPole环境示例](/rl/dqn_tutorial)

进阶代码框架

  • Policy Gradient 方法
    用PyTorch实现Actor-Critic架构

    Policy_Gradient
    [深入强化学习理论](/rl/advanced_topics)
  • PPO 算法实现
    Proximal Policy Optimization的代码结构解析

    Proximal_Policy_Optimization
    [查看PPO实战代码](/rl/ppo_demo)

代码资源推荐