岭回归(Ridge Regression)是一种经典的线性回归改进方法,通过引入L2正则化解决普通最小二乘回归(OLS)中的多重共线性问题。它在统计学、机器学习领域广泛应用,尤其适合高维数据建模。

核心概念 🔍

  • 目标:最小化残差平方和 + α × 权重系数的平方和
    $$ \text{Loss} = \sum_{i=1}^n (y_i - \mathbf{x}i^T \mathbf{w})^2 + \alpha \sum{j=1}^p w_j^2 $$
  • 参数α:控制正则化强度,值越大对权重的惩罚越强(防止过拟合)
  • 特点
    ✔️ 保留所有特征(不删除)
    ✔️ 通过收缩系数降低模型复杂度
    ✔️ 适用于特征间高度相关的情况

适用场景 📈

  • 多元线性回归中存在多重共线性
  • 特征维度远大于样本量(高维数据)
  • 需要稳定系数估计的场景

与普通线性回归的区别 📝

对比项 普通线性回归 岭回归
正则化项 L2正则化项(α × 权重平方)
系数稳定性 可能不稳定(共线性时) 更稳定(正则化约束)
模型复杂度 无约束 通过α控制复杂度

实现步骤 🧮

  1. 数据准备:确保数据格式为 X(特征矩阵)和 y(目标向量)
  2. 添加正则化项:在损失函数中引入 L2 正则化
  3. 求解优化问题:通过梯度下降或解析解(闭式解)计算权重
    $$ \mathbf{w} = (\mathbf{X}^T \mathbf{X} + \alpha \mathbf{I})^{-1} \mathbf{X}^T \mathbf{y} $$
  4. 调整α参数:使用交叉验证选择最优正则化系数

扩展阅读 🔗

岭回归原理
Ridge_Regression_公式