《机器学习数学基础》补充资料：多元线性回归的核心逻辑与 Python 实现-CSDN博客

本文链接：https://blog.csdn.net/qiwsir/article/details/148960473

一、多元线性回归概述：揭开多变量关系的神秘面纱

在数据科学的浩瀚宇宙中，多元线性回归是一颗璀璨的恒星，它是简单线性回归的华丽升级，专门用于建模多个自变量与一个连续因变量之间的线性关系。想象一下，当我们想预测房价时，不再局限于单一因素（如房屋面积），而是同时考虑地理位置、周边学校质量、交通便利性等多个变量，这就是多元线性回归的用武之地。

（一）定义：从一维到多维的飞跃

多元线性回归的数学表达式为：
$\beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_px_p + \epsilon$
这里的每一个符号都承载着重要意义：

$y$ 是我们关心的因变量（如房价、GDP、疾病发病率）
$x_j$ 代表第 $j$ 个自变量（如收入水平、广告投入、温度）
$β0\beta_0$ 是截距项，相当于所有自变量为 0 时的基线值
$βj\beta_j$ 是斜率系数，衡量自变量每变化 1 单位对因变量的影响
$ϵ\epsilon$ 是随机误差项，包含未被模型捕捉的随机因素

（二）应用场景：跨越多个领域的数据分析利器

经济学：构建 GDP 预测模型，纳入投资、消费、净出口等多个宏观经济指标
金融学：评估股票风险，分析市盈率、市净率、beta 系数等变量的联合影响
医学研究：探究疾病影响因素，同时考虑年龄、性别、血压、血糖等生物指标
工业生产：优化质量控制模型，分析原材料纯度、生产温度、加工时间对产品合格率的影响

（三）核心目标：双重使命的数据分析工具

解释变量影响：通过系数估计（ $βj\beta_j$ ）确定每个自变量对因变量的边际影响，例如 “收入每增加 1 万元，房价平均上涨 20 万元”
实现精准预测：利用拟合好的模型对新样本的因变量进行预测，例如根据某地区的教育资源和交通规划预测未来房价走势

二、数学原理详解：从公式推导到假设检验的完整逻辑链

（一）模型形式：构建线性关系的数学框架

标量形式：如开篇公式所示，每个自变量通过系数加权后相加，再加上截距和误差项
矩阵形式：为了高效处理多维数据，引入设计矩阵 $X\mathbf{X}$ 和参数向量 $β\boldsymbol{\beta}$

$\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}$

其中，设计矩阵 $X\mathbf{X}$ 的结构为：
$\mathbf{X} = \begin{bmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1p} \\ 1 & x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix}$
第一列为全 1 向量，对应截距项的系数 $β0\beta_0$

（二）基本假设：模型成立的前提条件

线性关系假设：因变量与自变量之间存在真实的线性关系（可通过散点图矩阵初步检验）
独立同分布假设：误差项 $ϵi\epsilon_i$ 相互独立，且服从相同的概率分布（保证参数估计的无偏性）
同方差性假设：误差项的方差恒定（ $Var(ϵi)=σ2Var(\epsilon_i) = \sigma^2$ ），异方差会导致标准误估计失真，影响假设检验
无多重共线性假设：自变量之间不存在严格的线性关系，严重共线性会使系数估计方差增大，导致结果不稳定（VIF>10 时需警惕）
正态分布假设：误差项服从正态分布（ $ϵ∼N(0,σ2)\epsilon \sim N(0, \sigma^2)$ ），这是 t 检验和 F 检验的理论基础

（三）参数估计：最小二乘法的数学奥秘

目标函数：最小化残差平方和（RSS），即寻找一组参数 $β\boldsymbol{\beta}$ 使得预测值与真实值的差距平方和最小

$min⁡β∑i=1n(yi−y^i)2=min⁡β(y−Xβ)T(y−Xβ) \min_{\beta} \sum_{i=1}^n (y_i - \hat{y}_i)^2 = \min_{\beta} (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T(\mathbf{y} - \mathbf{X}\boldsymbol{\beta})$

矩阵解法：通过对目标函数求导并令导数为零，得到最优解
- 求导过程：对 $β\boldsymbol{\beta}$ 求导得 $−2XT(y−Xβ)=0-2\mathbf{X}^T(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) = 0$
- 解得正规方程： $XTXβ=XTy\mathbf{X}^T\mathbf{X}\boldsymbol{\beta} = \mathbf{X}^T\mathbf{y}$
- 最终解： $β^=(XTX)−1XTy\boldsymbol{\hat{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}$ （要求 $XTX\mathbf{X}^T\mathbf{X}$ 可逆，即自变量无严格共线性）

（四）模型评估：多维度检验模型性能

拟合优度指标
- R²（决定系数）： $R2=1−∑(yi−y^i)2∑(yi−yˉ)2R^2 = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}$ ，表示模型解释的因变量方差比例，取值范围 [0,1]，值越大拟合效果越好
- 调整 R²： $Rˉ2=1−(1−R2)n−1n−p−1\bar{R}^2 = 1 - (1 - R^2)\frac{n-1}{n-p-1}$ ，通过引入自变量个数 $p$ 惩罚模型复杂度，避免盲目增加变量导致的虚高拟合
显著性检验
- F 检验：检验所有自变量对因变量的联合显著性，原假设 $H0:β1=β2=⋯=βp=0H_0: \beta_1 = \beta_2 = \cdots = \beta_p = 0$ ，统计量 $\frac{(SSR/p)}{SSE/(n-p-1)}$ ，服从 F 分布
- t 检验：检验单个系数的显著性，原假设 $H0:βj=0H_0: \beta_j = 0$ ，统计量 $t=β^jSE(β^j)t = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}$ ，服从 t 分布
模型选择准则
- AIC（赤池信息准则）： $n\ln(SSE/n) + 2(p+1)$
- BIC（贝叶斯信息准则）： $n\ln(SSE/n) + (p+1)\ln n$

两者均通过惩罚模型参数数量避免过拟合，值越小模型越优

三、Python 代码实现：从数据处理到模型训练的全流程实战

（一）环境准备：导入关键库

import numpy as np
import pandas as pd
import statsmodels.api as sm
from sklearn.linear_model import LinearRegression
from sklearn.datasets import fetch_california_housing  # 案例数据集
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

（二）数据预处理：清洗和整理数据

加载数据集：使用加州房价数据集，包含 8 个特征和房屋中位数价格

data = fetch_california_housing(as_frame=True)
df = data.frame
X = df.drop(columns=["MedHouseVal"])  # 特征矩阵（8个自变量）
y = df["MedHouseVal"]  # 目标变量（房屋中位数价格，单位：10万美元）

处理缺失值（本例无缺失值，实际需添加处理代码）：

# X = X.dropna()  # 删除含有缺失值的样本
# X = X.fillna(X.mean())  # 用均值填充数值型变量
# X = X.fillna("unknown")  # 用指定值填充分类变量

特征工程：对分类变量进行 One-Hot 编码（本例全为数值型变量，无需编码）

（三）建模与训练：两种主流实现方式

方法 1：scikit-learn（侧重预测应用）

# 1. 划分训练集和测试集（7:3比例）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 2. 初始化模型并训练
model_sk = LinearRegression()
model_sk.fit(X_train, y_train)

# 3. 查看模型参数
print("截距项 (β0):", model_sk.intercept_)
print("斜率系数 (β1-β8):", model_sk.coef_)

方法 2：statsmodels（侧重统计推断）

# 1. 添加截距项（设计矩阵补全全1列）
X_train_sm = sm.add_constant(X_train)
X_test_sm = sm.add_constant(X_test)

# 2. 拟合OLS模型
model_sm = sm.OLS(y_train, X_train_sm).fit()

# 3. 输出详细统计报告（包含显著性检验结果）
print(model_sm.summary())

（四）模型评估：多指标验证性能

# 1. 预测测试集
y_pred_sk = model_sk.predict(X_test)
y_pred_sm = model_sm.predict(X_test_sm)

# 2. 计算RMSE（均方根误差）
rmse_sk = np.sqrt(mean_squared_error(y_test, y_pred_sk))
rmse_sm = np.sqrt(mean_squared_error(y_test, y_pred_sm))
print(f"scikit-learn RMSE: {rmse_sk:.4f}")
print(f"statsmodels RMSE: {rmse_sm:.4f}")

# 3. 计算R²
r2_sk = r2_score(y_test, y_pred_sk)
r2_sm = r2_score(y_test, y_pred_sm)
print(f"scikit-learn R²: {r2_sk:.4f}")
print(f"statsmodels R²: {r2_sm:.4f}")

四、案例实战：加州房价预测的深度解析

（一）数据集详情：解密数据背后的信息

数据来源：scikit-learn 内置的加州房价数据集，基于 1990 年加州普查数据
特征列表：
- MedInc：人均收入（连续变量）
- HouseAge：房屋平均房龄（年，连续变量）
- AveRooms：平均房间数（连续变量）
- AveBedrms：平均卧室数（连续变量）
- Population：街区人口数（连续变量）
- AveOccup：平均家庭入住人数（连续变量）
- Latitude：纬度（地理位置，连续变量）
- Longitude：经度（地理位置，连续变量）
目标变量：MedHouseVal，房屋中位数价格（单位：10 万美元）

（二）完整分析流程：从数据到结论的闭环

# 1. 加载原始数据（未转换为DataFrame的版本）
data = fetch_california_housing()
X, y = data.data, data.target
feature_names = data.feature_names

# 2. 数据预处理（添加截距项用于statsmodels）
X = sm.add_constant(X, prepend=True)  # 在第一列添加全1向量

# 3. 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. 训练模型
model = sm.OLS(y_train, X_train).fit()

# 5. 预测并评估
y_pred = model.predict(X_test)
print(f"测试集R²: {r2_score(y_test, y_pred):.4f}")  # 输出约0.64，说明模型解释64%的房价方差

# 6. 系数解读
coeff_df = pd.DataFrame({
    "Feature": ["Intercept"] + feature_names,
    "Coefficient": model.params,
    "Std.Err": model.bse,
    "t-value": model.tvalues,
    "p-value": model.pvalues
}).sort_values("Coefficient", ascending=False)
print(coeff_df)

（三）结果解读：洞察数据背后的业务含义

关键发现：
- MedInc（人均收入）：系数为 3.52（p<0.001），表明收入每增加 1 万元，房价平均上涨 3.52 万美元（10 万美元单位下）
- Latitude（纬度）：系数为 0.89（p<0.001），纬度越高（向北）房价越高，反映加州北部（如旧金山）房价更高
- Longitude（经度）：系数为 - 0.54（p<0.001），经度越高（向东）房价越低，符合加州东部房价低于沿海地区的现实
模型局限性：
- 可能存在非线性关系：如房价与房龄可能呈二次函数关系，当前线性模型未能捕捉
- 交互作用未考虑：收入水平与地理位置可能存在交互影响，需添加交互项进一步分析
- 异方差可能：通过残差图分析若发现方差递增趋势，需采用加权最小二乘法

五、注意事项与优化方向：打造更强大的回归模型

（一）常见问题诊断与解决

多重共线性处理：
- 检测方法：计算 VIF（方差膨胀因子）， $VIFj=11−Rj2VIF_j = \frac{1}{1 - R_j^2}$ ，其中 $R_j^2$ 是第 j 个变量对其他变量回归的决定系数（VIF>5 时存在显著共线性）
- 解决方案：删除高度相关的变量、使用正则化方法（如岭回归 / Lasso）、主成分分析降维
异方差性处理：
- 检测方法：绘制残差 - 拟合值图，若出现漏斗状分布则存在异方差
- 解决方案：对因变量进行对数变换、采用加权最小二乘法（WLS，给方差小的样本更高权重）
异常值检测：
- 高杠杆点：通过帽子矩阵对角线元素（ $h_{ii}$ ）检测，阈值约为 $3 (p + 1) / n$
- 强影响点：计算 Cook 距离，距离 > 1 的样本需重点关注

（二）模型优化策略

特征工程升级：
- 添加多项式特征：如将收入平方项加入模型，捕捉非线性关系
- 构造交互项：如收入 × 房龄，分析不同房龄下收入对房价的影响差异
正则化技术：
- Ridge 回归：在目标函数中添加 L2 正则项（ $λ∑βj2\lambda\sum\beta_j^2$ ），防止过拟合并处理共线性
- Lasso 回归：使用 L1 正则项（ $λ∑∣βj∣\lambda\sum|\beta_j|$ ），可实现变量选择，将不显著变量系数压缩至 0
- ElasticNet：结合 L1 和 L2 正则，平衡变量选择和系数收缩
非线性变换：
- 对因变量进行对数变换（如 ln (y)），使误差分布更接近正态
- 使用广义加性模型（GAM），允许自变量以非线性形式进入模型