learn/optimization/gradient_descent

Gradient Descent 是一种常用的优化算法，用于机器学习和深度学习中模型的参数优化。它通过不断调整参数，使损失函数的值最小化。

基本原理

损失函数：损失函数用于衡量模型预测值与真实值之间的差距。
梯度：梯度是损失函数相对于参数的偏导数，表示损失函数在参数空间中的变化率。
更新参数：通过梯度下降算法，我们更新参数，使其逐渐减小损失函数的值。

步骤

初始化参数。
计算损失函数的梯度。
根据梯度更新参数。
重复步骤2和3，直到损失函数的值达到最小或者达到预设的迭代次数。

优化算法

Stochastic Gradient Descent (SGD)：随机梯度下降，每次迭代只使用一个样本的梯度。
Mini-batch Gradient Descent：小批量梯度下降，每次迭代使用一小批样本的梯度。
Adam：自适应矩估计，结合了SGD和Momentum的优点。

应用

Gradient Descent 在许多机器学习模型中都有应用，例如线性回归、神经网络等。

更多关于机器学习的知识，可以访问机器学习教程。

Gradient Descent