【算法解析2/5】回归任务深度拆解:常用算法、评估指标、主流算法与实战思考 | 平均绝对误差MAE、均方误差MSE、均方根误差RMSE、决定系数?| 线性回归、支持向量回归、L1,L2正规化?

注:本系列将有五部分,分别对应五大机器学习任务类型,包括:
1. 分类(Classification)、2. 回归(Regression)、3. 聚类(Clustering)、4. 降维(Dimensionality Reduction)以及 5. 强化学习(Reinforcement Learning)
此文含大量干货,建议收藏方便以后再读!


大家好,我是爱酱。继上一篇我们深入探讨了分类任务的评估与应用,今天轮到五大机器学习任务中的第二类——回归任务(Regression)。回归问题在金融、医疗、零售、工业等领域都有广泛应用,比如房价预测、销量预估、温度曲线拟合等。本文将系统梳理回归任务的定义、常用评估指标、主流算法、实际应用场景与常见问题,帮助你建立全面的回归知识体系。

注:本文章颇长近4500字,建议先收藏再慢慢观看。新频道发展不易,你们的每个赞、收藏跟转发都是我继续分享的动力!


一、什么是回归任务?

回归任务的目标是预测一个连续的数值型结果,而不是像分类那样输出离散的类别标签。回归属于监督学习,训练数据既有特征(自变量),也有连续型标签(因变量)。

  • 单变量回归:预测一个连续变量(如房价、气温)。

  • 多变量回归:同时预测多个连续变量(如多项经济指标)。

  • 非线性回归:输入与输出之间的关系不是简单的直线,而可能是曲线或更复杂的函数。


二、回归任务常用评估指标

科学评估回归模型的表现,离不开合适的指标。以下是主流回归评估指标及其公式:

1. 平均绝对误差(MAE, Mean Absolute Error)

定义:预测值与真实值之差的绝对值的平均数,反映平均预测偏差。

算法公式

        \text{MAE} = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i|

以防有些伙伴不懂这些算式的代表,我先做个简短的介绍
N:样本数量(Number of Samples) 比如5个样本,那N就是5了。

\frac{1}{N}:为什么要用1除N呢?因为我们的目的是找平均值(Mean)。继续举例N为5,那5个的平均当然就是要除5,也就是\frac{1}{N}了。
\left |\left ( y- \hat{y}\right ) \right |:绝对值(Absolute Value),亦可以称为平均绝对误差(L1 Loss)。左右的直竖线代表绝对值,即里面的内容永远为正。这可以使(0-5)跟(5-0)都得到5为答案。

y:实际输出值(Actual Output Value),指实际已知数。

\hat{y}:预测输出值(Predicted Output Value),指预测后获得的数据。

\sum:总和(Sum Of)

例子:
原来 - A:6,B:7,C:8 | 预测 - A:5,B:7,C:9

MAE = \frac{1}{3}(\left | 6-5 \right |+\left | 7-7 \right |+\left | 8-9 \right |) =\frac{1+0+1}{3} =0.6667

下面我们就不多加解释了,因为很多概念都是通用的

优点:比起MSE,对异常值更不敏感,更易于解释。

适用场景:对每个误差都同等关注的场景(因为除以N个数据量,均衡每个数据的影响力)。

2. 均方误差(MSE, Mean Squared Error)

定义:预测值与真实值之差的平方的平均数,强调大误差。

算法公式

        \text{MSE} = \frac{1}{N} \sum_{i=1}^{N}(y_i - \hat{y}_i)^{2}

优点:对大误差敏感,适合需要严控大误差的场景。

缺点:单位为原始单位的平方,直观性略差。比佢MAE,处理异常值(Outliers)的能力也更差,因为二次方后会进一步增强异常值的影响力,因此更敏感。

3. 均方根误差(RMSE, Root Mean Squared Error)

定义:MSE的平方根,单位与原始数据一致。

算法公式

        \text{RMSE} = \sqrt{\frac{1}{N} \sum_{i=1}^{N}(y_i - \hat{y}_i)^{2}}

优点:便于解释,常用于对比模型性能。

适用场景:跟MSE类似,对大误差/异常值敏感,适合对精度要求高的场景。

4. 决定系数($R^2$, R-squared)

定义:衡量模型对因变量变异的解释能力,越接近1越好。

算法公式

        R^{2}= 1-\frac{SS_{RES}}{SS_{TOT}}=1-\frac{\frac{1}{N} \sum_{i=1}^{N}(y_i - \hat{y}_i)^{2}}{\frac{1}{N} \sum_{i=1}^{N}(y_i - \bar{y}_i)^{2}}

大家注意看,上面的部分其实就是刚才MSE讲过的部分,而下面的 \hat{y} 换成 \bar{y} 其实就是用平均值代替预测值。

SS_{RES}

SS_{TOT}

由于SS_{RES}是根据我们的回归模型去执行的,因此如无意外,结果都会比SS_{TOT}(普通平均线)好(SS_{RES}数值越少越好)。因此,结果越接近1当然是最好的结果(因为是R^{2})。通常能大过0.9就非常好了,能达到1的话,回归线必须要穿过所有数据(基本上不可能),小于0.7就是不太靠谱了(视乎实际应用)。

优点:直观反映模型拟合优度。

缺点:对异常值敏感,不能反映所有误差类型。

5. 平均绝对百分比误差(MAPE, Mean Absolute Percentage Error)

定义:预测误差占真实值的百分比,越小越好。

算法公式

\text{MAPE} = \frac{100\%}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right|

优点:便于跨任务比较,结果为百分比。

缺点:真实值为零或接近零时不适用。


三、主流回归算法及原理简介
 

注: 这部分的实际原理要解释会太长,对某些观众来说可能也太复杂了,我们先简单介绍,如果大伙有兴趣深究此部分,我们可以在单独出文章讲述某些原理。有些算法跟分类任务是非常接近的,不过目的从分类换成了回归预测。还没看我分类篇的建议先去补完喔!

1. 线性回归(Linear Regression)

原理:假设输入特征与输出之间存在线性关系,通过最小化误差平方和拟合一条最佳直线。

适用场景:经济预测、房价估算、基础数据分析。

2. 岭回归与Lasso回归(Ridge & Lasso Regression)

原理:在线性回归基础上加入正则化项,防止过拟合。Ridge用L2正则(L2 Regularization),Lasso用L1正则(L1 Regularization)(可实现特征选择)。

注:L1 loss 跟 L1 Regularization,还有L2 loss 跟 L2 Regularization也一样,这两个东西是不同的。虽然前者都有L1而后者都有L2,但就是我上面介绍的L1 Loss意思一样,指的是平均绝对误差(MAE),跟L1 Regularization指的 Lasso回归(Lasso Regression)是截然不同的意思喔~不要搞混乱了!

适用场景:高维数据、特征多且相关性强的任务。

3. 决策树回归(Decision Tree Regressor)

原理:通过树结构递归分割特征空间,每个叶节点输出一个预测值,适合处理非线性关系。

适用场景:复杂特征、非线性数据、业务解释性需求强。

4. 随机森林回归(Random Forest Regressor)

原理:集成多棵决策树,取平均预测结果,提升泛化能力,抗噪声能力强。

适用场景:大数据量、特征多样、对准确率要求高的场景。

5. 支持向量回归(SVR, Support Vector Regression)

原理:跟分类任务的支持向量机是非常接近的,不过这次我们用其作回归任务。通过核函数将数据映射到高维空间,在允许一定误差的情况下拟合最优回归线。

适用场景:高维稀疏数据、对异常值鲁棒性要求高。

6. 神经网络回归(Neural Network Regression)

原理:通过多层神经元和非线性激活函数,拟合复杂的输入输出关系,适合大规模、复杂数据。

适用场景:金融时序预测、图像回归、复杂业务建模。


四、回归任务的实际应用场景

回归分析作为机器学习和统计建模的基石,广泛应用于各行各业,帮助企业和研究者进行数值预测、趋势分析和决策优化。以下是各主要行业的典型回归应用案例:

1. 金融领域

  • 股票价格预测:利用历史价格、成交量、宏观经济指标等多变量,预测未来的股票或指数价格走势,辅助投资决策。

  • 风险评估与信用评分:银行和金融机构用回归模型分析借款人的收入、负债、信用历史等,预测违约概率,实现更科学的信贷审批和风险控制。

  • 资产定价与收益分析:通过回归分析不同资产的市场风险、收益率与宏观变量的关系,优化投资组合配置。

2. 房地产

  • 房价估算:根据地段、面积、楼龄、交通、学区等特征,预测房屋的市场价格,帮助买卖双方和中介做出合理定价。

  • 租金预测:分析市场供需、配套设施、历史租金等因素,预测未来租金走势,辅助投资和租赁决策。

  • 投资回报分析:通过回归模型评估不同投资项目的潜在收益和风险,优化房地产投资策略。

3. 零售与电商

  • 销量预测:结合历史销售数据、促销活动、季节性和市场趋势,预测未来销量,优化库存和供应链管理。

  • 价格优化:分析价格变动对销量的影响,建立价格弹性模型,实现动态定价和利润最大化。

  • 客户价值与流失预测:用回归模型评估客户生命周期价值(CLV)、流失概率,辅助精准营销和客户关系管理。

4. 医疗健康

  • 生命体征趋势预测:通过回归分析病人心率、血压、体温等随时间变化的数据,预测病情发展趋势,辅助医生决策。

  • 药物剂量调整:利用患者体重、年龄、肝肾功能等变量,预测最合适的药物剂量,提高治疗效果并降低副作用。

  • 疾病风险预测:分析体检指标、家族史、生活方式等,预测患病概率,实现早筛查和个性化健康管理。

5. 工业制造与能源

  • 设备寿命与故障预测:基于传感器数据(如温度、振动、工作时长),预测设备剩余寿命,提前安排维护,降低停机损失。

  • 能耗曲线拟合与优化:回归模型用于预测工厂、数据中心等的能耗趋势,指导节能减排和成本控制。

  • 质量控制与缺陷率分析:通过回归分析生产参数与产品质量的关系,优化工艺流程,提高良品率。

6. 交通与物流

  • 需求与运力预测:回归模型预测不同时间、地点的物流需求,优化运力调度和路线规划。

  • 送达时间估算:分析天气、路况、订单量等因素,预测包裹送达时间,提升客户体验。

  • 交通流量与拥堵分析:预测高峰期交通流量,辅助城市交通管理和基础设施规划。

7. 市场营销与运营

  • 广告效果分析:通过回归建模广告投放量与销售额、品牌曝光等指标的关系,优化市场预算分配。

  • 用户行为趋势预测:分析用户活跃度、留存率、转化率等,预测未来用户行为,辅助产品迭代和运营决策。

  • 市场需求与价格弹性分析:评估促销、节假日等因素对市场需求的影响,实现科学营销。

8. 科研与环境

  • 气候与环境变化预测:气象学家利用回归模型分析温度、降水、风速等数据,预测气候变化趋势和极端天气事件。

  • 农业产量预测:结合土壤、降雨、施肥等变量,预测作物产量,指导农业生产和资源分配。

  • 人口与城市规划:用回归分析人口增长、迁移、住房需求等,辅助城市基础设施和公共服务规划。

9. 软件开发与IT运维

  • 系统性能与资源消耗预测:分析服务器负载、内存、CPU使用率等,预测系统瓶颈和未来扩容需求。

  • 故障与缺陷率预测:回归模型用于预测软件缺陷数量、系统故障概率,提升软件质量和运维效率。


五、回归模型实战建议与常见问题

1. 如何选择评估指标?

  • 若关心整体误差,优先用RMSE、MAE。

  • 若需对比不同任务或模型,MAPE和$R^2$更直观。

  • 对大误差敏感的场景,MSE和RMSE更合适。

2. 如何处理异常值和离群点?

  • 可用鲁棒回归(如Huber回归)、数据清洗、分箱等方法减少异常值影响。

3. 过拟合与欠拟合如何判断?

  • 过拟合:训练集误差低,测试集误差高。可通过正则化、简化模型、增加数据等方式缓解。

  • 欠拟合:训练集和测试集误差都高。可提升模型复杂度、增加特征等。

4. 特征工程的重要性

  • 特征选择、特征构造和归一化对回归模型表现影响极大。

  • 线性模型对特征分布和线性关系敏感,建议做归一化和多项式特征扩展。


六、总结

回归任务是机器学习中最基础、应用最广的类型之一。掌握主流评估指标和算法原理,结合实际业务需求,才能打造出既精准又可靠的回归模型。下期我们将继续探讨聚类任务的原理与实战,敬请期待!

谢谢大家看到这里,新频道发展不易,请不要吝惜你的每个点赞/关注/收藏!我是爱酱,我们下次再见,谢谢收看!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值