手把手带你推导“Ridge回归”核心公式

原创已于 2025-09-15 11:25:59 修改 · 1.1k 阅读

·

26

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#线性回归 #机器学习 #人工智能

于 2025-09-11 14:05:17 首次发布

手推机器学习公式专栏收录该内容

8 篇文章

订阅专栏

在机器学习中，岭回归（Ridge Regression）是一种经典的线性回归改进方法，它通过引入正则化项来解决线性回归中可能出现的过拟合问题。

接下来，我们将详细推导岭回归的核心公式，帮助你深入理解其数学原理。

一、岭回归的基础原理

在推导“岭回归”数学公式之前，我们先回顾一下线性回归的基本概念。

线性回归的目标是找到一个权重向量 $ω\omega$ ，使得预测值 $ωTxi\omega^T x_i$ 与真实值 $y_i$ 之间的平方误差最小。

图1. 线性回归原理

用数学公式表示就是：
$J(\omega) = \sum_{i=1}^{n}(y_i - \omega^T x_i)^2$
其中， $y_i$ 是目标值， $x_i$ 是特征向量， $ω\omega$ 是权重向量。

用矩阵形式表示，目标函数可以写成：

$J(W) = (Y - XW)^T(Y - XW)$

其中， $Y$ 是目标值向量， $X$ 是特征矩阵， $W$ 是特征矩阵。

岭回归的核心思想是在最小二乘法的基础上引入一个正则化项，对模型的权重进行惩罚，使其不会过大，从而降低模型的复杂度。

图2. 岭回归原理

岭回归的目标函数可以表示为：
$J(\omega) = \sum_{i=1}^{n}(y_i -\omega^T x_i)^2 + \lambda \sum_{j=1}^{p}\omega_j^2$
其中， $λ\lambda$ 是正则化参数，用于控制正则化的强度。

用矩阵形式表示，目标函数可以写成： $XW)^T(Y - XW) + \lambda W^TW$ 。

二、岭回归数学公式推导

岭回归的核心公式是通过在最小二乘法的基础上增加一个正则化项来实现的。以下是岭回归核心公式的推导过程：

在普通最小二乘法中，优化目标是最小化残差平方和：
$\arg\min_w \sum_{n=1}^{N}(y_n - w^T x_n)^2$
其中， $y_n$ 是目标值， $x_n$ 是特征向量， $w$ 是权重向量。

岭回归在最小二乘法的基础上增加了一个正则化项，即权重向量的 $L 2$ 范数的平方，优化目标变为：

$\arg\min_w \left( \sum_{n=1}^{N}(y_n - w^T x_n)^2 + \lambda \sum_{j=1}^{M}w_j^2 \right)$

其中， $λ\lambda$ 是正则化参数，用于控制正则化项的强度。

为了求解上述优化问题，我们可以通过求导并令导数为零来找到最优解。

具体步骤如下：

1. 写出目标函数：

$\sum_{n=1}^{N}(y_n - w^T x_n)^2 + \lambda \sum_{j=1}^{M}w_j^2$

2. 对 $w$ 求导：

$\frac{\partial L}{\partial w} = -2 \sum_{n=1}^{N}(y_n - w^T x_n)x_n + 2\lambda w$

3. 令导数为零：

$\sum_{n=1}^{N}(y_n - w^T x_n)x_n + 2\lambda w = 0$

4. 整理得到：

$\sum_{n=1}^{N}(y_n - w^T x_n)x_n + \lambda w = 0$

5. 用矩阵形式表示：

$X^T(y - Xw) + \lambda w = 0$

其中， $X$ 是特征矩阵， $y$ 是目标值向量。

6. 进一步整理：

$X^T y - X^T Xw + \lambda w = 0$

7. 移项得到：

$X^T Xw + \lambda w = X^T y$

8. 提取 $w$ ：

$(X^T X + \lambda I)w = X^T y$

其中， $I$ 是单位矩阵。

9. 求解 $w$ ：

$(X^T X + \lambda I)^{-1}X^T y$

这就是岭回归的闭式解。

在矩阵形式下，岭回归的优化目标可以表示为：
$\arg\min_w \|y - Xw\|^2 + \lambda \|w\|^2$
其中， $∥⋅∥\|\cdot\|$ 表示向量的L2范数。

三、关键点解析

接下来，我将对上述数学推导过程中的一些关键点进行解析。

3.1 正则化项的作用

正则化项 $λθTθ\lambda \theta^T \theta$ 在公式推导中，通过在目标函数中加入对权重的惩罚，使得模型在拟合数据的同时，权重不会过大，从而降低模型的复杂度，防止过拟合。

图3. 大话西游中至尊宝戴上紧箍咒的画面

比如，当 $λ\lambda$ 增大时，权重 $θ\theta$ 的值会减小，模型的复杂度也会相应降低。这就好比给模型戴上了“紧箍咒”，让它不会过于“放飞自我”。

3.2 单位矩阵的引入

在公式中引入单位矩阵 $I$ 是为了确保 $XTX+λIX^T X + \lambda I$ 是一个正定矩阵，从而保证其可逆性。

这在数学上是非常重要的，因为它确保了最优权重的解是唯一且存在的。

图4. 引入单位矩阵将矩阵变为正定矩阵

在实际应用中，特征矩阵 $X$ 可能存在多重共线性（特征之间高度相关），这会导致 $X^T X$ 是一个奇异矩阵（不可逆）。

而加上 $λI\lambda I$ 后，矩阵的对角线元素增加 $λ\lambda$ ，使得矩阵变为正定矩阵，从而保证了求解过程的稳定性。

3.3 求解的稳定性

岭回归的求解过程非常稳定，即使在特征矩阵 $X$ 存在多重共线性的情况下，仍然能够稳定地求解最优权重。

例如，在一个房价预测问题中，假设特征包括房屋面积、房间数量和地理位置等，这些特征之间可能存在高度相关性。

图5. 房价预测模型

在这种情况下，线性回归可能会出现数值不稳定的情况，而岭回归能够很好地解决这个问题，得到稳定的权重解。

- 结语 -

今天，我们深入探讨了岭回归的核心公式，从构建目标函数到详细推导过程，再到关键概念的解析。

通过这些内容的学习，相信你对岭回归的理解更加透彻。

作为机器学习中的关键算法，岭回归不仅在本领域内有着重要地位，其思想和方法也对其他领域产生了广泛的影响。

注：本文中未声明的图片均来源于互联网

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。