LightGBM 相关知识理解_lightgbm 类别变量-CSDN博客

本文链接：https://blog.csdn.net/VariableX/article/details/106242202

本文详细介绍了LightGBM的优化策略，包括直方图算法、单边梯度采样（GOSS）、互斥特征捆绑（EFB），以及工程优化如原生类别特征支持、高效并行和Cache命中率优化。直方图算法通过减少分割点数量，提高计算速度和降低内存消耗。GOSS和EFB进一步减少了样本和特征的数量。LightGBM的并行优化和Cache优化使其在处理大数据时表现出色。然而，Leaf-wise算法可能导致过拟合，为此LightGBM设定了最大深度限制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

lightGBM 简介

GBDT是个经典的模型，主要是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点，常被用于多分类、点击率预测、搜索排序等任务。

在LightGBM提出之前，还有个GBDT的高效实现：XGBoost。XGBoost是属于boosting家族，也是GBDT算法的一个工程实现。在模型的训练过程中是聚焦残差，在目标函数中使用了二阶泰勒展开并加入了正则，在决策树的生成过程中采用近似分割的方式（可以理解为分桶的思路），选出一些候选的分裂点，然后再遍历这些较少的分裂点，计算按照这些候选分裂点位分裂后的全部样本的目标函数增益，找到最大的那个增益对应的特征和候选分裂点位，从而进行分裂。这样一层一层的完成建树过程， XGBoost训练的时候，是通过加法的方式进行训练，也就是每一次通过聚焦残差训练一棵树出来，最后的预测结果是所有树的加和表示。

对于上面的过程，不难发现时间复杂度和空间复杂度比较高：

首先就是空间消耗很大，因为预排序的话既需要保存数据的特征值，还得保存特征排序后的索引，毕竟这样后续计算分割点的时候快一些，但是这样就需要消耗训练数据两倍的内存。
其次，时间上也有很大的开销，在遍历每一个分割点的时候，都需要进行分裂增益的计算，消耗的代价大。

总的来说，XGBoost寻找最优分裂点的复杂度由下面三个因素构成：
$特征数量 \times 分裂点的数量 \times 样本的数量$
LightGBM（Light Gradient Boosting Machine）也是一个实现GBDT算法的框架，支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。它主要对上面的三个因素分别优化，下面提到的1，直方图算法就是为了减少分裂点的数量， 2，单边梯度抽样算法就是为了减少样本的数量，3，互斥特征捆绑算法就是为了减少特征的数量。并且后面两个是Lightgbm的亮点所在。