强化学习(Reinforcement Learning, RL)是机器学习的重要分支,通过智能体与环境的交互来学习最优策略。以下是几个经典基础算法的简明解析:

1. Q-Learning 🧠

Q-Learning 是一种无模型的值迭代算法,通过维护一个Q表来记录状态-动作对的价值。其核心公式为:
$$ Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s',a') - Q(s,a)] $$
适用场景:小规模离散状态空间的环境

Q_learning

2. Deep Q-Network (DQN) 🎮

DQN 在Q-Learning基础上引入神经网络,解决高维状态空间问题。关键创新包括:

  • 经验回放(Experience Replay)
  • 目标网络(Target Network)
Deep_Q_Network

3. Policy Gradient 📈

直接优化策略函数的策略梯度方法,通过梯度上升更新策略参数。特点:

  • 适用于连续动作空间
  • 不依赖价值函数估计
Policy_Gradient

4. Actor-Critic 框架 🤝

结合值函数与策略梯度的双网络结构,包含:

5. SARSA 算法 🔄

与Q-Learning类似,但采用后向更新机制,更注重动作选择的一致性。公式差异:
$$ Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma Q(s',a') - Q(s,a)] $$
(需注意动作选择的关联性)

如需了解这些算法的数学推导或代码实现,可进一步阅读:强化学习数学基础