多元线性回归残差
时间: 2025-05-15 12:07:14 浏览: 12
### 多元线性回归中的残差概念及其计算
#### 残差定义
在多元线性回归中,残差是指实际观测值与模型预测值之间的差异。具体来说,对于每一个样本点 \(i\),其残差可以表示为:
\[
e_i = y_i - \hat{y}_i
\]
其中,\(y_i\) 是第 \(i\) 个样本的实际观测值,\(\hat{y}_i\) 则是由回归模型预测得到的值[^1]。
---
#### 残差的计算方法
假设我们有一个多元线性回归模型,形式如下:
\[
\hat{y} = b_0 + b_1x_1 + b_2x_2 + ... + b_kx_k
\]
给定一组输入变量 \(x_{i1}, x_{i2}, ..., x_{ik}\),以及对应的实测响应值 \(y_i\) 和由上述模型估计出的预测值 \(\hat{y}_i\),那么该样本点的残差即为两者之差:
\[
e_i = y_i - (b_0 + b_1x_{i1} + b_2x_{i2} + ... + b_kx_{ik})
\]
通过这种方式,我们可以针对每一条记录分别计算出它的残差[^4]。
---
#### 残差分析的意义
对残差进行深入研究有助于验证所建立模型的有效性和适用范围。例如,在理想情况下,这些误差应该满足以下几个条件:
- **均值接近于零**:如果平均残差偏离零,则可能意味着存在系统偏差。
- **恒定方差(同方差性)**:不同水平上的随机扰动具有相同的波动幅度。
- **独立分布**:各次测量之间不存在关联关系。
- **正态分布特性**:当样本数量足够大时,残差应呈现标准正态分布形态[^3]。
为了评估以上几点性质是否成立,通常会借助图形工具来进行直观判断,比如绘制散点图观察趋势变化规律;或者利用统计测试手段进一步量化指标数值大小,如D-W检验用于检测序列相关程度等[^5]。
---
```python
import numpy as np
from sklearn.linear_model import LinearRegression
# 假设已知的数据集 X 和目标向量 Y
X = np.array([[1, 2], [2, 3], [3, 4]])
Y = np.array([6, 8, 10])
model = LinearRegression()
model.fit(X, Y)
predictions = model.predict(X)
residuals = Y - predictions
print("Residuals:", residuals)
```
此段代码展示了如何基于Python库`sklearn`实现简单的多元线性回归并手动求取相应残差数组的过程。
---
阅读全文
相关推荐


















