梯度下降是机器学习中用于最小化损失函数的核心优化算法,广泛应用于模型训练过程。其核心思想是通过迭代调整参数,沿着损失函数的负梯度方向逐步逼近最小值。
📌 基本概念
- 目标:找到使损失函数最小的参数值
- 核心公式:
$$ \theta_{n+1} = \theta_n - \alpha \nabla J(\theta_n) $$
其中 $\alpha$ 是学习率,$\nabla J(\theta_n)$ 是损失函数在 $\theta_n$ 处的梯度。
🧠 梯度下降类型
批量梯度下降(Batch GD)
- 使用全部训练数据计算梯度
- ⚠️ 计算成本高,但收敛稳定
- 📎 了解更多
随机梯度下降(Stochastic GD)
- 每次迭代仅使用一个样本
- 🚀 收敛速度快,但路径波动较大
小批量梯度下降(Mini-batch GD)
- 平衡批量与随机,使用部分样本
- 📈 常用于深度学习框架
📈 原理示意图
🧪 应用场景
- 线性回归:通过最小化误差平方和
- 神经网络训练:优化权重参数
- 逻辑回归:最大化分类概率
⚠️ 注意事项
- 学习率 $\alpha$ 设置不当可能导致震荡或发散
- 凸函数 vs 非凸函数:梯度下降可能陷入局部最优
- 🔄 可结合动量法(Momentum)或Adam优化器提升效果