GBDT FFM(FM) Online Learing(FTRL)_gbdt online learning-CSDN博客

本文链接：https://blog.csdn.net/jonathanxqs/article/details/104133951

本文深入探讨了GBDT（梯度提升决策树）、FFM（Field-aware Factorization Machines）以及在线学习算法FTRL在kaggle比赛中的重要应用。介绍了Ensemble学习的三种形式：Bagging、Stacking和Boosting，重点讲解了GBDT的工作原理和优化方法，包括Boosting Tree、Gradient Boosting的实现细节，并总结了GBDT算法的迭代过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

GBDT+FFM(FM)+Online Learing(FTRL)是kaggle比赛的重点方法,需要重点学习。

从Ensemble说起

Bagging，Boosting和Stacking是集成学习的三种主要的形式.

Bagging

Bagging=Bootstrap Aggregating，是model averaging的策略. bootstrap是一种有放回的抽样，那么bagging就是使用bootstrap抽样来进行模型平均(vote). 从训练集从进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果.

比如: Random Forest就是使用bagging的思想 (1) bootstrap抽样产生样本集M (2) 从原始的K个特征中选择k(logK)个随机特征作为特征集F (3) 对样本集M在特征集F上建立决策树(CART) (4) 重复(1)-(3)产生多个决策树 (5) 投票(average)

这里借鉴别人的一张图：

Stacking

是指训练一个模型用于组合其他各个模型。即首先我们先训练多个不同的模型，然后再以之前训练的各个模型的输出为输入来训练一个模型，以得到一个最终的输出. 将训练好的所有基模型对训练基进行预测，第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值，最后基于新的训练集进行训练。同理，预测的过程也要先经过所有基模型的预测形成新的测试集，最后再对测试集进行预测.

别人的一个图画的很好，这里拿来：

Boosting

While boosting is not algorithmically constrained, most boosting algorithms consist of iteratively learning weak classifiers with respect to a distribution and adding them to a final strong classifier. When they are added, they are typically weighted in some way that is