银行金融风控面试必考题目(四)树模型优劣对比XGBOOST,lightgbm,catboost,adaboost,ngboost

机器学习树模型对比分析

图片

一、算法概述

决策树

核心思想:基于树结构递归选择最优特征进行数据分割,形成分类/回归规则。

典型算法:ID3(信息增益)、C4.5(信息增益比)、CART(基尼指数/平方误差)。

随机森林(Random Forest)

核心思想:通过Bootstrap采样构建多棵决策树,结合Bagging和特征随机选择降低方差。

AdaBoost

核心思想:迭代调整样本权重,组合多个弱分类器(如决策树桩),侧重修正前序模型的错误。

XGBoost

核心思想:基于梯度提升框架,引入正则化、二阶导数优化和并行计算,支持自定义损失函数。

LightGBM

核心思想:采用直方图优化和Leaf-wise生长策略,显著提升训练效率,适合大规模数据6。

CatBoost

核心思想:自动处理类别特征,通过有序提升(Ordered Boosting)减少梯度偏差,增强鲁棒性。

NGBoost

核心思想:基于概率预测的自然梯度提升,输出预测分布而非单一点估计,适合不确定性量化。

二.优劣对比

图片

三、关键技术差异

特征处理

XGBoost/LightGBM需手动编码类别特征,CatBoost自动处理

NGBoost通过概率分布建模直接处理连续变量不确定性

计算优化

LightGBM直方图算法减少特征分裂计算量(较XGBoost快10倍)

XGBoost支持近似贪心算法和稀疏感知分裂

正则化

XGBoost引入L1/L2正则项和树复杂度惩罚项

CatBoost通过有序提升减少过拟合

缺失值处理

XGBoost自动学习缺失值分裂方向

LightGBM默认将缺失值归入增益最大分支

四、选型建议

精度优先:XGBoost/CatBoost(结构化数据)

速度优先:LightGBM(百万级样本)

可解释性:决策树/随机森林(特征重要性可视化)

不确定性建模:NGBoost(需概率输出)

面试重点

目前金融公司对树模型的面试重点范围为决策树decisiontree,random forest,xgboost,lightgbm,给位学员可以重点关注这几个模型。

版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值