🌟 梯度下降（Gradient Descent）详解

梯度下降是机器学习中用于最小化损失函数的核心优化算法，广泛应用于模型训练过程。其核心思想是通过迭代调整参数，沿着损失函数的负梯度方向逐步逼近最小值。

📌 基本概念

目标：找到使损失函数最小的参数值
核心公式：
$$ \theta_{n+1} = \theta_n - \alpha \nabla J(\theta_n) $$
其中 $\alpha$ 是学习率，$\nabla J(\theta_n)$ 是损失函数在 $\theta_n$ 处的梯度。

🧠 梯度下降类型

批量梯度下降（Batch GD）
- 使用全部训练数据计算梯度
- ⚠️ 计算成本高，但收敛稳定
- 📎 了解更多
随机梯度下降（Stochastic GD）
- 每次迭代仅使用一个样本
- 🚀 收敛速度快，但路径波动较大
小批量梯度下降（Mini-batch GD）
- 平衡批量与随机，使用部分样本
- 📈 常用于深度学习框架

📈 原理示意图

梯度下降示意图

🧪 应用场景

线性回归：通过最小化误差平方和
神经网络训练：优化权重参数
逻辑回归：最大化分类概率

⚠️ 注意事项

学习率 $\alpha$ 设置不当可能导致震荡或发散
凸函数 vs 非凸函数：梯度下降可能陷入局部最优
🔄 可结合动量法（Momentum）或Adam优化器提升效果

📚 扩展阅读