梯度下降(Gradient Descent)是机器学习中用于优化模型参数的核心算法之一,通过迭代计算损失函数的梯度并沿负方向更新参数,最终逼近最优解。以下是关键知识点:
基本原理 🔍
数学公式
参数更新规则:
$$ \theta_{t+1} = \theta_t - \eta \nabla J(\theta_t) $$
其中 $\eta$ 为学习率,$\nabla J(\theta_t)$ 为损失函数 $J$ 在参数 $\theta_t$ 处的梯度。核心思想
- 沿着损失函数的负梯度方向移动,逐步减小误差
- 学习率控制更新步长,过大可能导致震荡,过小则收敛缓慢
主要变种 🔄
类型 | 特点 | 适用场景 |
---|---|---|
批量梯度下降(Batch) | 使用全部训练数据计算梯度 | 凸函数优化,稳定性高 |
随机梯度下降(Stochastic) | 每次用单个样本更新参数 | 大数据集,实时性要求高 |
小批量梯度下降(Mini-Batch) | 平衡批量与随机的折中方案 | 现代深度学习的主流选择 |
应用场景 📈
- 线性回归模型训练
- 神经网络权重优化
- 逻辑回归分类任务
扩展阅读 📚
📝 提示:理解梯度下降需要先掌握微积分中的导数概念,建议结合可视化工具(如Matplotlib)加深理解。