岭回归(Ridge Regression)是一种经典的线性回归改进方法,通过引入L2正则化解决普通最小二乘回归(OLS)中的多重共线性问题。它在统计学、机器学习领域广泛应用,尤其适合高维数据建模。
核心概念 🔍
- 目标:最小化残差平方和 + α × 权重系数的平方和
$$ \text{Loss} = \sum_{i=1}^n (y_i - \mathbf{x}i^T \mathbf{w})^2 + \alpha \sum{j=1}^p w_j^2 $$ - 参数α:控制正则化强度,值越大对权重的惩罚越强(防止过拟合)
- 特点:
✔️ 保留所有特征(不删除)
✔️ 通过收缩系数降低模型复杂度
✔️ 适用于特征间高度相关的情况
适用场景 📈
- 多元线性回归中存在多重共线性
- 特征维度远大于样本量(高维数据)
- 需要稳定系数估计的场景
与普通线性回归的区别 📝
对比项 | 普通线性回归 | 岭回归 |
---|---|---|
正则化项 | 无 | L2正则化项(α × 权重平方) |
系数稳定性 | 可能不稳定(共线性时) | 更稳定(正则化约束) |
模型复杂度 | 无约束 | 通过α控制复杂度 |
实现步骤 🧮
- 数据准备:确保数据格式为
X
(特征矩阵)和y
(目标向量) - 添加正则化项:在损失函数中引入 L2 正则化
- 求解优化问题:通过梯度下降或解析解(闭式解)计算权重
$$ \mathbf{w} = (\mathbf{X}^T \mathbf{X} + \alpha \mathbf{I})^{-1} \mathbf{X}^T \mathbf{y} $$ - 调整α参数:使用交叉验证选择最优正则化系数