神经网络优化算法详解 🤖🔍

1. 梯度下降（Gradient Descent）

📌 核心原理：通过计算损失函数对模型参数的梯度，沿负梯度方向迭代更新参数，逐步逼近最小值。
🧠 优点：简单直观，适用于凸函数优化。
⚠️ 局限：易陷入局部最优，学习率需谨慎调整。
📌 应用场景：线性回归、基础神经网络训练。

🔄 特点：每次迭代使用单个样本计算梯度，加快收敛速度但可能震荡。
📈 优势：适合大规模数据集，内存占用低。
📉 缺点：不稳定，需多次调整学习率。

🚀 创新点：结合了动量法（Momentum）和RMSProp的优点，自适应调整学习率。
📊 优势：收敛速度快，适用于非凸优化问题。
📚 应用场景：深度学习模型训练（如CNN、RNN）。

🧩 目标：在模型参数中引入稀疏性，减少冗余。
📉 典型算法：L1正则化（Lasso）、弹性网络（Elastic Net）。
📌 作用：提升模型泛化能力，降低过拟合风险。

📝 提示：理解优化算法需结合具体任务场景，建议通过实验对比效果。