【算法解析2/5】回归任务深度拆解：常用算法、评估指标、主流算法与实战思考 | 平均绝对误差MAE、均方误差MSE、均方根误差RMSE、决定系数？| 线性回归、支持向量回归、L1，L2正规化？-CSDN博客

本文链接：https://blog.csdn.net/ai_aijiang/article/details/148598250

注：本系列将有五部分，分别对应五大机器学习任务类型，包括：
1. 分类（Classification）、2. 回归（Regression）、3. 聚类（Clustering）、4. 降维（Dimensionality Reduction）以及 5. 强化学习（Reinforcement Learning）
此文含大量干货，建议收藏方便以后再读！

大家好，我是爱酱。继上一篇我们深入探讨了分类任务的评估与应用，今天轮到五大机器学习任务中的第二类——回归任务（Regression）。回归问题在金融、医疗、零售、工业等领域都有广泛应用，比如房价预测、销量预估、温度曲线拟合等。本文将系统梳理回归任务的定义、常用评估指标、主流算法、实际应用场景与常见问题，帮助你建立全面的回归知识体系。

注：本文章颇长近4500字，建议先收藏再慢慢观看。新频道发展不易，你们的每个赞、收藏跟转发都是我继续分享的动力！

一、什么是回归任务？

回归任务的目标是预测一个连续的数值型结果，而不是像分类那样输出离散的类别标签。回归属于监督学习，训练数据既有特征（自变量），也有连续型标签（因变量）。

单变量回归：预测一个连续变量（如房价、气温）。
多变量回归：同时预测多个连续变量（如多项经济指标）。
非线性回归：输入与输出之间的关系不是简单的直线，而可能是曲线或更复杂的函数。

二、回归任务常用评估指标

科学评估回归模型的表现，离不开合适的指标。以下是主流回归评估指标及其公式：

1. 平均绝对误差（MAE, Mean Absolute Error）

定义：预测值与真实值之差的绝对值的平均数，反映平均预测偏差。

算法公式：

$\text{MAE} = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i|$

以防有些伙伴不懂这些算式的代表，我先做个简短的介绍
$N$ ：样本数量（Number of Samples）比如5个样本，那 $N$ 就是5了。

$\frac{1}{N}$ ：为什么要用1除N呢？因为我们的目的是找平均值（Mean）。继续举例 $N$ 为5，那5个的平均当然就是要除5，也就是 $\frac{1}{N}$ 了。
$\left |\left ( y- \hat{y}\right ) \right |$ ：绝对值（Absolute Value），亦可以称为平均绝对误差（L1 Loss）。左右的直竖线代表绝对值，即里面的内容永远为正。这可以使（0-5）跟（5-0）都得到5为答案。

$y$ ：实际输出值（Actual Output Value），指实际已知数。

$\hat{y}$ ：预测输出值（Predicted Output Value），指预测后获得的数据。

$\sum$ ：总和（Sum Of）

例子：
原来 - A：6，B：7，C：8 | 预测 - A：5，B：7，C：9

MAE = $\frac{1}{3}(\left | 6-5 \right |+\left | 7-7 \right |+\left | 8-9 \right |) =\frac{1+0+1}{3} =0.6667$

下面我们就不多加解释了，因为很多概念都是通用的

优点：比起MSE，对异常值更不敏感，更易于解释。

适用场景：对每个误差都同等关注的场景（因为除以N个数据量，均衡每个数据的影响力）。

2. 均方误差（MSE, Mean Squared Error）

定义：预测值与真实值之差的平方的平均数，强调大误差。

算法公式：

$\text{MSE} = \frac{1}{N} \sum_{i=1}^{N}(y_i - \hat{y}_i)^{2}$

优点：对大误差敏感，适合需要严控大误差的场景。

缺点：单位为原始单位的平方，直观性略差。比佢MAE，处理异常值（Outliers）的能力也更差，因为二次方后会进一步增强异常值的影响力，因此更敏感。

3. 均方根误差（RMSE, Root Mean Squared Error）

定义：MSE的平方根，单位与原始数据一致。

算法公式：

$\text{RMSE} = \sqrt{\frac{1}{N} \sum_{i=1}^{N}(y_i - \hat{y}_i)^{2}}$

优点：便于解释，常用于对比模型性能。

适用场景：跟MSE类似，对大误差/异常值敏感，适合对精度要求高的场景。

4. 决定系数（$R^2$, R-squared）

定义：衡量模型对因变量变异的解释能力，越接近1越好。

算法公式：

$R^{2}= 1-\frac{SS_{RES}}{SS_{TOT}}=1-\frac{\frac{1}{N} \sum_{i=1}^{N}(y_i - \hat{y}_i)^{2}}{\frac{1}{N} \sum_{i=1}^{N}(y_i - \bar{y}_i)^{2}}$

大家注意看，上面的部分其实就是刚才MSE讲过的部分，而下面的 $\hat{y}$ 换成 $\bar{y}$ 其实就是用平均值代替预测值。

$SS_{RES}$ ：

$SS_{TOT}$ ：

由于 $SS_{RES}$ 是根据我们的回归模型去执行的，因此如无意外，结果都会比 $SS_{TOT}$ （普通平均线）好（ $SS_{RES}$ 数值越少越好）。因此，结果越接近1当然是最好的结果（因为是 $R^{2}$ ）。通常能大过0.9就非常好了，能达到1的话，回归线必须要穿过所有数据（基本上不可能），小于0.7就是不太靠谱了（视乎实际应用）。

优点：直观反映模型拟合优度。

缺点：对异常值敏感，不能反映所有误差类型。

5. 平均绝对百分比误差（MAPE, Mean Absolute Percentage Error）

定义：预测误差占真实值的百分比，越小越好。

算法公式：

$\text{MAPE} = \frac{100\%}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right|$

优点：便于跨任务比较，结果为百分比。

缺点：真实值为零或接近零时不适用。

三、主流回归算法及原理简介

注：这部分的实际原理要解释会太长，对某些观众来说可能也太复杂了，我们先简单介绍，如果大伙有兴趣深究此部分，我们可以在单独出文章讲述某些原理。有些算法跟分类任务是非常接近的，不过目的从分类换成了回归预测。还没看我分类篇的建议先去补完喔！

1. 线性回归（Linear Regression）

原理：假设输入特征与输出之间存在线性关系，通过最小化误差平方和拟合一条最佳直线。

适用场景：经济预测、房价估算、基础数据分析。

2. 岭回归与Lasso回归（Ridge & Lasso Regression）

原理：在线性回归基础上加入正则化项，防止过拟合。Ridge用L2正则（L2 Regularization），Lasso用L1正则（L1 Regularization）（可实现特征选择）。

注：L1 loss 跟 L1 Regularization，还有L2 loss 跟 L2 Regularization也一样，这两个东西是不同的。虽然前者都有L1而后者都有L2，但就是我上面介绍的L1 Loss意思一样，指的是平均绝对误差（MAE），跟L1 Regularization指的 Lasso回归（Lasso Regression）是截然不同的意思喔~不要搞混乱了！

适用场景：高维数据、特征多且相关性强的任务。