
在机器学习中,岭回归(Ridge Regression)是一种经典的线性回归改进方法,它通过引入正则化项来解决线性回归中可能出现的过拟合问题。

接下来,我们将详细推导岭回归的核心公式,帮助你深入理解其数学原理。
一、岭回归的基础原理
在推导“岭回归”数学公式之前,我们先回顾一下线性回归的基本概念。
线性回归的目标是找到一个权重向量 ω\omegaω,使得预测值 ωTxi\omega^T x_iωTxi 与真实值 yiy_iyi 之间的平方误差最小。

用数学公式表示就是:
J(ω)=∑i=1n(yi−ωTxi)2 J(\omega) = \sum_{i=1}^{n}(y_i - \omega^T x_i)^2 J(ω)=i=1∑n(yi−ωTxi)2
其中,yiy_iyi 是目标值,xix_ixi 是特征向量,ω\omegaω 是权重向量。
用矩阵形式表示,目标函数可以写成:
J(W)=(Y−XW)T(Y−XW) J(W) = (Y - XW)^T(Y - XW) J(W)=(Y−XW)T(Y−XW)
其中,YYY 是目标值向量,XXX 是特征矩阵,WWW 是特征矩阵。
岭回归的核心思想是在最小二乘法的基础上引入一个正则化项,对模型的权重进行惩罚,使其不会过大,从而降低模型的复杂度。

岭回归的目标函数可以表示为:
J(ω)=∑i=1n(yi−ωTxi)2+λ∑j=1pωj2 J(\omega) = \sum_{i=1}^{n}(y_i -\omega^T x_i)^2 + \lambda \sum_{j=1}^{p}\omega_j^2 J(ω)=i=1∑n(yi−ωTxi)2+λj=1∑pωj2
其中,λ\lambdaλ 是正则化参数,用于控制正则化的强度。
用矩阵形式表示,目标函数可以写成:J(W)=(Y−XW)T(Y−XW)+λWTWJ(W) = (Y - XW)^T(Y - XW) + \lambda W^TWJ(W)=(Y−XW)T(Y−XW)+λWTW。
二、岭回归数学公式推导
岭回归的核心公式是通过在最小二乘法的基础上增加一个正则化项来实现的。以下是岭回归核心公式的推导过程:
在普通最小二乘法中,优化目标是最小化残差平方和:
argminw∑n=1N(yn−wTxn)2 \arg\min_w \sum_{n=1}^{N}(y_n - w^T x_n)^2 argwminn=1∑N(yn−wTxn)2
其中,yny_nyn 是目标值,xnx_nxn 是特征向量,www 是权重向量。
岭回归在最小二乘法的基础上增加了一个正则化项,即权重向量的 L2L2L2 范数的平方,优化目标变为:
argminw(∑n=1N(yn−wTxn)2+λ∑j=1Mwj2) \arg\min_w \left( \sum_{n=1}^{N}(y_n - w^T x_n)^2 + \lambda \sum_{j=1}^{M}w_j^2 \right) argwmin(n=1∑N(yn−wTxn)2+λj=1∑Mwj2)
其中,λ\lambdaλ 是正则化参数,用于控制正则化项的强度。
为了求解上述优化问题,我们可以通过求导并令导数为零来找到最优解。
具体步骤如下:
1. 写出目标函数:
L(w)=∑n=1N(yn−wTxn)2+λ∑j=1Mwj2 L(w) = \sum_{n=1}^{N}(y_n - w^T x_n)^2 + \lambda \sum_{j=1}^{M}w_j^2 L(w)=n=1∑N(yn−wTxn)2+λj=1∑Mwj2
2. 对 www 求导:
∂L∂w=−2∑n=1N(yn−wTxn)xn+2λw \frac{\partial L}{\partial w} = -2 \sum_{n=1}^{N}(y_n - w^T x_n)x_n + 2\lambda w ∂w∂L=−2n=1∑N(yn−wTxn)xn+2λw
3. 令导数为零:
−2∑n=1N(yn−wTxn)xn+2λw=0 -2 \sum_{n=1}^{N}(y_n - w^T x_n)x_n + 2\lambda w = 0 −2n=1∑N(yn−wTxn)xn+2λw=0
4. 整理得到:
∑n=1N(yn−wTxn)xn+λw=0 \sum_{n=1}^{N}(y_n - w^T x_n)x_n + \lambda w = 0 n=1∑N(yn−wTxn)xn+λw=0
5. 用矩阵形式表示:
XT(y−Xw)+λw=0 X^T(y - Xw) + \lambda w = 0 XT(y−Xw)+λw=0
其中,XXX 是特征矩阵,yyy 是目标值向量。
6. 进一步整理:
XTy−XTXw+λw=0 X^T y - X^T Xw + \lambda w = 0 XTy−XTXw+λw=0
7. 移项得到:
XTXw+λw=XTy X^T Xw + \lambda w = X^T y XTXw+λw=XTy
8. 提取 www:
(XTX+λI)w=XTy (X^T X + \lambda I)w = X^T y (XTX+λI)w=XTy
其中,III 是单位矩阵。
9. 求解 www:
w=(XTX+λI)−1XTy w = (X^T X + \lambda I)^{-1}X^T y w=(XTX+λI)−1XTy
这就是岭回归的闭式解。
在矩阵形式下,岭回归的优化目标可以表示为:
argminw∥y−Xw∥2+λ∥w∥2 \arg\min_w \|y - Xw\|^2 + \lambda \|w\|^2 argwmin∥y−Xw∥2+λ∥w∥2
其中,∥⋅∥\|\cdot\|∥⋅∥ 表示向量的L2范数。
三、关键点解析
接下来,我将对上述数学推导过程中的一些关键点进行解析。
3.1 正则化项的作用
正则化项 λθTθ\lambda \theta^T \thetaλθTθ 在公式推导中,通过在目标函数中加入对权重的惩罚,使得模型在拟合数据的同时,权重不会过大,从而降低模型的复杂度,防止过拟合。

比如,当 λ\lambdaλ 增大时,权重 θ\thetaθ 的值会减小,模型的复杂度也会相应降低。这就好比给模型戴上了“紧箍咒”,让它不会过于“放飞自我”。
3.2 单位矩阵的引入
在公式中引入单位矩阵 III 是为了确保 XTX+λIX^T X + \lambda IXTX+λI 是一个正定矩阵,从而保证其可逆性。
这在数学上是非常重要的,因为它确保了最优权重的解是唯一且存在的。

在实际应用中,特征矩阵 XXX 可能存在多重共线性(特征之间高度相关),这会导致 XTXX^T XXTX 是一个奇异矩阵(不可逆)。
而加上 λI\lambda IλI 后,矩阵的对角线元素增加 λ\lambdaλ,使得矩阵变为正定矩阵,从而保证了求解过程的稳定性。
3.3 求解的稳定性
岭回归的求解过程非常稳定,即使在特征矩阵 XXX 存在多重共线性的情况下,仍然能够稳定地求解最优权重。
例如,在一个房价预测问题中,假设特征包括房屋面积、房间数量和地理位置等,这些特征之间可能存在高度相关性。

在这种情况下,线性回归可能会出现数值不稳定的情况,而岭回归能够很好地解决这个问题,得到稳定的权重解。
今天,我们深入探讨了岭回归的核心公式,从构建目标函数到详细推导过程,再到关键概念的解析。
通过这些内容的学习,相信你对岭回归的理解更加透彻。
作为机器学习中的关键算法,岭回归不仅在本领域内有着重要地位,其思想和方法也对其他领域产生了广泛的影响。
注:本文中未声明的图片均来源于互联网