梯度下降是机器学习中用于最小化损失函数的核心优化算法,广泛应用于模型训练过程。其核心思想是通过迭代调整参数,沿着损失函数的负梯度方向逐步逼近最小值。


📌 基本概念

  • 目标:找到使损失函数最小的参数值
  • 核心公式
    $$ \theta_{n+1} = \theta_n - \alpha \nabla J(\theta_n) $$
    其中 $\alpha$ 是学习率,$\nabla J(\theta_n)$ 是损失函数在 $\theta_n$ 处的梯度。

🧠 梯度下降类型

  1. 批量梯度下降(Batch GD)

    • 使用全部训练数据计算梯度
    • ⚠️ 计算成本高,但收敛稳定
    • 📎 了解更多
  2. 随机梯度下降(Stochastic GD)

    • 每次迭代仅使用一个样本
    • 🚀 收敛速度快,但路径波动较大
  3. 小批量梯度下降(Mini-batch GD)

    • 平衡批量与随机,使用部分样本
    • 📈 常用于深度学习框架

📈 原理示意图

梯度下降示意图

🧪 应用场景

  • 线性回归:通过最小化误差平方和
  • 神经网络训练:优化权重参数
  • 逻辑回归:最大化分类概率

⚠️ 注意事项

  • 学习率 $\alpha$ 设置不当可能导致震荡发散
  • 凸函数 vs 非凸函数:梯度下降可能陷入局部最优
  • 🔄 可结合动量法(Momentum)或Adam优化器提升效果

📚 扩展阅读