前文回顾
上篇文章链接:地址
4.残差是什么
在线性回归模型中,残差是指每个观测值的真实值与相应模型预测值之间的差异,残差通常用
ε
i
\varepsilon_i
εi表示,其中i表示第i个观测值,残差可以通过以下公式计算:
ϵ
i
=
y
i
−
y
^
i
\epsilon_i = y_i - \hat{y}_i
ϵi=yi−y^i
其中:
- y i y_i yi是第i个观测值的真实值(因变量的实际值)
- y ^ i \hat{y}_i y^i是模型预测的值,即根据回归模型估计得出的值
而残差最小化是线性回归模型的核心原理之⼀,它的目标是找到最佳的模型参数(回归系数),以使观测值和模型预测值之间的差异尽可能小,而这是因为:
- 拟合数据:线性回归的主要目标是拟合数据,即找到⼀个线性模型,使其能够最好地描述⾃变量和因变量之间的关系。通过最小化残差,我们试图使每个观测值的预测值尽可能接近实际值
- 度量模型拟合质量:残差是度量模型拟合质量的重要指标。较小的残差表示模型能够更好地解释和预测数据,而较大的残差意味着模型与数据之间存在差异,需要进⼀步改进
- 最小二乘法:线性回归通常使用最小二乘法来估计回归系数。最小二乘法的目标是最小化残差平方和,即使得残差的平方和最小。这是⼀个数学上可解的优化问题,它能够找到使模型拟合数据最佳的参数
- 可解释性:通过最小化残差,线性回归模型的参数(回归系数)具有直观的可解释性。斜率表示自变量对因变量的影响程度,截距表示在自变量为0时的预测值
总而言之,通过最小化残差,线性回归模型旨在找到最佳的线性关系,以最好地描述⾃变量和因变量之间的关系,从而提供可解释性强且拟合数据的模型。最小化残差是实现这⼀目标的核心方法之⼀
5.如何衡量线性回归模型的拟合优度
在线性回归中,我们使⽤不同的统计指标来衡量模型的拟合优度,其中最常⽤的指标之⼀是R平方。
除了R平⽅,还有调整后的R平方,它对模型的拟合优度进行了⼀些修正,考虑了⾃变量的数量。
详细解释下这两个指标的含义:
1.R平方(R-squared):R平方是⼀个介于0和1之间的值,⽤来衡量线性回归模型对观测数据的拟合程度。它表示因变量(目标变量)的变异程度中有多少能够被自变量(特征)解释,R平方的计算公式:
R
2
=
1
−
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
R^{2} = 1 - \frac{\sum_{i = 1}^{n} (y_{i} - \hat{y}_{i})^{2}}{\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2}}
R2=1−∑i=1n(yi−yˉ)2∑i=1n(yi−y^i)2
其中:
- y i y_i yi是第i个观测值的真实值(因变量的实际值)
- y ^ i \hat{y}_i y^i是模型预测的值,即根据回归模型估计得出的值
- y ˉ \bar{y} yˉ是因变量的均值
R平方的取值范围为0到1,当R平⽅接近1时,表示模型能够很好地解释因变量的变异性,拟合优度较高。当R平方接近0时,表示模型对因变量的解释力较差,拟合优度较低
2.调整后的R平⽅(Adjusted R-squared):调整后的R平方是对R平方的⼀种修正,考虑了⾃变量的数量。它用于避免过度拟合问题,因为增加自变量可能会导致R平方增加,但也不⼀定意味着模型更好,调整后的R平方的计算公式:
Adjusted
R
2
=
1
−
(
1
−
R
2
)
(
n
−
1
)
n
−
p
−
1
\text{Adjusted } R^{2} = 1 - \frac{(1 - R^{2})(n - 1)}{n - p - 1}
Adjusted R2=1−n−p−1(1−R2)(n−1)
其中:
- R 2 R^{2} R2是未经调整的R平方
- n是样本数量
- p是⾃变量的数量
调整后的R平方通常小于未经调整的R平方,因为它考虑了⾃变量数量的惩罚。当模型中的自变量不增加解释力时,调整后的R平方值较低,总而言之,R平方和调整后的R平⽅是⽤于评估线性回归模型拟合优度的重要指标,可以帮助我们了解模型对数据的解释力和可靠性
6.多重共线性是什么,如何处理
定义:在线性回归中,多重共线性(Multicollinearity)是指⾃变量之间存在⾼度相关性或线性依赖关系的情况,他可能导致的问题有
- 不稳定的估计:多重共线性会导致回归系数估计变得不稳定。这意味着小的数据变动或微小的变量选择变化都可能导致回归系数的大幅度变化,使得参数估计不可靠
- 难以解释效果:多重共线性使得很难分离各自自变量对因变量的独立效应,因为它们之间的效应不再明确。这会降低模型的解释能力
- 统计检验不准确:多重共线性会导致回归模型的统计检验不准确,如t检验和F检验,这可能会导致错误的结论,例如错误地认为某些⾃变量对因变量没有显著影响
- 过度拟合:多重共线性可以导致过度拟合,因为模型可能会在自变量之间寻找微小的变化,从⽽试图解释由于共线性引起的噪声
可以实现的解决措施:
- 相关系数分析:通过计算自变量之间的相关系数矩阵,可以初步了解⾃变量之间是否存在高度相关性。相关系数接近于1表示高度相关
- 方差膨胀因子(VIF):VIF用于衡量每个自变量与其他自变量的相关性程度。VIF越大,表示共线性越严重。通常,VIF大于10或更高的⾃变量可能需要考虑去除或合并
- 主成分分析(PCA):PCA可以将相关的⾃变量合并成新的⽆关自变量,从而减少共线性的影响。但这会导致模型的解释变得更加复杂
- 逐步回归:逐步回归⽅法允许逐渐添加或删除⾃变量,以找到最佳模型。在逐步回归中,会考虑每个自变量的贡献,从而减少共线性引起的问题
- 合并自变量:如果多个自变量之间高度相关,可以考虑将它们合并成⼀个新的自变量或使用其平均值来代替。这样可以减少模型中的共线性
7.下溢和上溢现象分别是什么
下溢(Underflow):下溢是指在计算中得到了⼀个非常接近零的数值,甚至小于计算机能够表示的最小浮点数的情况。在线性回归中,下溢通常发生在计算预测值与实际观测值之间的差异(误差)时,尤其是在数据特征之间存在较大差异或数值范围差异较大时。下溢可能导致模型无法收敛,因为参数更新的梯度变得非常小,难以继续优化模型。而解决下溢问题的方法有
- 使⽤数值稳定的计算方法,如梯度裁剪(Gradient Clipping)或权重正则化
- 标准化输入特征,将它们缩放到相似的数值范围内,有助于减少下溢的发生
- 如果使用梯度下降等优化算法,可以尝试调整学习率,以确保梯度更新足够大,但不会导致上溢或下溢
上溢(Overflow):上溢是指在计算中得到了⼀个非常大的数值,超出了计算机能够表示的最大浮点数的范围,在线性回归中,上溢通常发生在模型参数过大或数据特征之间的差异过大时,导致预测值迅速增加到超出计算机表示能力的范围。解决上溢问题的方法有
- 使用数值稳定的计算方法,如梯度裁剪或权重正则化,以防止模型参数变得过大
- 标准化输入特征,以确保它们之间的差异不会导致预测值过大
- 如果使用梯度下降等优化算法,可以尝试降低学习率,以减缓参数的更新速度,从而避免上溢
8.岭回归和Lasso回归又是什么
- 岭回归(Ridge Regression)是⼀种线性回归的正则化⽅法,用于处理多重共线性问题。它通过在目标函数中引入L2正则化项来限制模型的系数大小,以减小过拟合风险,岭回归的公式:岭回归的目标是最小化以下目标函数
min β { ∑ i = 1 n ( y i − y ^ i ) 2 + α ∑ j = 1 p β j 2 } \min_{\beta} \left\{ \sum_{i = 1}^{n} (y_{i} - \hat{y}_{i})^{2} + \alpha \sum_{j = 1}^{p} \beta_{j}^{2} \right\} βmin{i=1∑n(yi−y^i)2+αj=1∑pβj2}
其中:- n是样本数量
- p是特征数量
- y i y_i yi是实际观测值
- y ^ i \hat{y}_i y^i是预测值
- β j \beta_{j} βj是回归系数
- α是正则化参数,⽤于控制正则化的强度。较大的值会导致系数趋向于零
- Lasso回归(Least Absolute Shrinkage and Selection Operator Regression)是⼀种线性回归的正则化方法,用于处理多重共线性问题并进行特征选择。它通过在目标函数中引入L1正则化项来约束模型的系数,并促使⼀些系数变为零,从而实现自动特征选择,Lasso回归公式:Lasso回归的目标是最小化以下目标函数:
min β { ∑ i = 1 n ( y i − y ^ i ) 2 + α ∑ j = 1 p ∣ β j ∣ } \min_{\beta} \left\{ \sum_{i = 1}^{n} (y_{i} - \hat{y}_{i})^{2} + \alpha \sum_{j = 1}^{p} |\beta_{j}| \right\} βmin{i=1∑n(yi−y^i)2+αj=1∑p∣βj∣}
其中:- n是样本数量
- p是特征数量
- y i y_i yi是实际观测值
- y ^ i \hat{y}_i y^i是预测值
- β j \beta_{j} βj是回归系数
- α是正则化参数,用于控制正则化的强度。较大的值会导致系数趋向于零
- 二者的区别与联系
- 正则化类型:普通线性回归没有正则化项,其目标是最小化残差平方和,不对回归系数进行任何约束。岭回归引入了 L2 正则化项,其⽬标是最小化残差平方和与回归系数的平方和之和,以限制回归系数的大小,Lasso回归引入了 L1 正则化项,其目标是最小化残差平方和与回归系数的绝对值之和,以促使⼀些回归系数变为零,实现特征选择
- 系数的性质:普通线性回归的系数可以是任意实数,没有限制。岭回归的系数趋向于缩小但不会变为零,因此不会进行特征选择。Lasso回归的系数可以变为零,从而实现了自动特征选择,使模型更稀疏
- 解决的问题:普通线性回归通常用于建模和预测,但在存在多重共线性时容易过拟合。岭回归主要用于解决多重共线性问题,可以稳定估计,但不进行特征选择。Lasso 回归用于解决多重共线性问题,并且可以进⾏特征选择,有助于提取最重要的特征
- 正则化参数:在岭回归和Lasso回归中,正则化参数(α)⽤于控制正则化的强度。较大的α值会导致更强的正则化,推动回归系数向零缩小。普通线性回归没有正则化参数
- 特征选择:普通线性回归不进行特征选择,使用所有特征。岭回归倾向于减小回归系数但不会消除它们,不进行特征选择。Lasso 回归可以将某些系数压缩为零,实现特征选择,使模型更稀疏
9.评估指标
⼏个常⽤的线性回归模型评估指标以及它们的意义:
- 均方误差(Mean Squared Error,MSE):MSE是最常用的线性回归评估指标之⼀,它衡量了模型预测值与实际观测值之间的平均平方误差。MSE越小表示模型拟合得越好。公式为
M S E = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 MSE = \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - \hat{y}_{i})^{2} MSE=n1i=1∑n(yi−y^i)2
其中,n是样本数量, y i y_i yi是实际观测值, y i ^ \hat{y_i} yi^是模型的预测值 - 均方根误差(Root Mean Squared Error,RMSE):RMSE是MSE的平方根,它以与⽬标变量相同的单位度量误差。与MSE⼀样,RMSE越小表示模型性能越好。公式为
R M S E = M S E RMSE = \sqrt{MSE} RMSE=MSE - 平均绝对误差(Mean Absolute Error,MAE):MAE衡量了模型预测值与实际观测值之间的平均绝对误差。MAE对异常值不太敏感,因为它不涉及误差的平方。公式为
M A E = 1 n ∑ i = 1 n ∣ y i − y ^ i ∣ MAE = \frac{1}{n} \sum_{i = 1}^{n} |y_{i} - \hat{y}_{i}| MAE=n1i=1∑n∣yi−y^i∣ - 决定系数(Coefficient of Determination,R-squared):决定系数表示模型解释了⽬标变量⽅差的⽐例。它介于0和1之间,越接近1表示模型对数据的拟合越好。公式为
R 2 = 1 − ∑ i = 1 n ( y i − y ^ i ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 R^{2} = 1 - \frac{\sum_{i = 1}^{n} (y_{i} - \hat{y}_{i})^{2}}{\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2}} R2=1−∑i=1n(yi−yˉ)2∑i=1n(yi−y^i)2 - 调整决定系数(Adjusted R-squared):意义:与R-squared相比,调整决定系数考虑了模型中使⽤的⾃变量数量。它在自变量数量较多时更为有用,以避免过拟合。公式为
Adjusted R 2 = 1 − ( 1 − R 2 ) ( n − 1 ) n − k − 1 \text{Adjusted } R^{2} = 1 - \frac{(1 - R^{2})(n - 1)}{n - k - 1} Adjusted R2=1−n−k−1(1−R2)(n−1) - 残差分布:意义:通过观察残差的分布,可以检查模型的拟合情况。正常情况下,残差应该接近正态分布,均值为0。如果存在模式或异常值,可能需要进一步优化模型
预告:下一部分------逻辑回归