1. 梯度下降(Gradient Descent)
📌 核心原理:通过计算损失函数对模型参数的梯度,沿负梯度方向迭代更新参数,逐步逼近最小值。
🧠 优点:简单直观,适用于凸函数优化。
⚠️ 局限:易陷入局部最优,学习率需谨慎调整。
📌 应用场景:线性回归、基础神经网络训练。
2. 随机梯度下降(SGD)
🔄 特点:每次迭代使用单个样本计算梯度,加快收敛速度但可能震荡。
📈 优势:适合大规模数据集,内存占用低。
📉 缺点:不稳定,需多次调整学习率。
3. Adam 优化器
🚀 创新点:结合了动量法(Momentum)和RMSProp的优点,自适应调整学习率。
📊 优势:收敛速度快,适用于非凸优化问题。
📚 应用场景:深度学习模型训练(如CNN、RNN)。
4. 稀疏化方法(Sparse Optimization)
🧩 目标:在模型参数中引入稀疏性,减少冗余。
📉 典型算法:L1正则化(Lasso)、弹性网络(Elastic Net)。
📌 作用:提升模型泛化能力,降低过拟合风险。
扩展阅读 🔗
📝 提示:理解优化算法需结合具体任务场景,建议通过实验对比效果。