DataWhale机器学习高级算法梳理Day4-LightGBM算法梳理

最新推荐文章于 2024-01-17 16:58:26 发布

原创最新推荐文章于 2024-01-17 16:58:26 发布 · 325 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #LightGBM

学习笔记同时被 2 个专栏收录

25 篇文章

订阅专栏

机器学习

9 篇文章

订阅专栏

LightGBM是一种高效的GBDT算法框架，具有快速训练、低内存消耗和高准确率的特点。通过直方图算法和叶生长策略优化，支持类别特征，适用于大规模数据处理。对比XGBoost，LightGBM在工业级应用中表现更佳。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LightGBM

LightGBM是一个实现GBDT算法的框架，支持高效率的并行训练，并且具有以下优点：

更快的训练速度
更低的内存消耗
更好的准确率
分布式支持，可以快速处理海量数据

和XGBoosting等GBDT算法相比的主要优化点：

基于 Histogram 的决策树算法
带深度限制的 Leaf-wise 的叶子生长策略
直方图做差加速
直接支持类别特征(Categorical Feature)
Cache 命中率优化
基于直方图的稀疏特征优化
多线程优化。

LightGBM的起源

常用的机器学习算法，例如神经网络等算法，都可以以mini-batch的方式训练，训练数据的大小不会受到内存限制。

mini-batch:
在梯度下降中需要对所有数据计算一遍再决定下一步，当数据集样本规模特别大时，这样的一次迭代会非常耗时，这时的梯度下降叫full-batch。为提高效率，我们将样本总数为 $N$ 的数据集分割为 $T$ 个含 $m$ 个样本的子数据集，循环遍历这 $T$ 个子集，对每个子集做一次梯度下降，到下个子集时继续进行梯度下降，这就是mini-batch。

而GBDT在每一次迭代的时候，都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小；如果不装进内存，反复地读写训练数据又会消耗非常大的时间。尤其面对工业级海量的数据，普通的GBDT算法是不能满足其需求的。

LightGBM提出的主要原因就是为了解决GBDT在海量数据遇到的问题，让GBDT可以更好更快地用于工业实践。

Histogram VS pre-sorted

预排序算法

首先，对所有特征值进行排序
遍历分割点，用 $O$ 的代价找到一个特征上的最好分割点
找到一个分裂点后，将数据分裂为左右子节点

预排序算法的主要缺点：

排序的空间消耗大，需要保存数据的特征值，还有每个特征分布的结果
时间上开销大，需要对每层叶子进行遍历找到最佳分裂点
对 cache 优化不友好。在预排序后，特征对梯度的访问是一种随机访问，并且不同的特征访问的顺序不一样，无法对 cache 进行优化。同时，在每一层长树的时候，需要随机访问一个行索引到叶子索引的数组，并且不同特征访问的顺序也不一样，也会造成较大的 cache miss。

直方图算法

直方图算法的基本思想是先把连续的浮点特征值离散化成k个整数，同时构造一个宽度为k的直方图。在遍历数据的时候，根据离散化后的值作为索引在直方图中累积统计量，当遍历一次数据后，直方图累积了需要的统计量，然后根据直方图的离散值，遍历寻找最优的分割点。

在这里插入图片描述
也就是：LightGBM通过直方图算法把连续的特征值离散化成对应的bin（可以理解成桶），然后累加每个bin对应特征的梯度值并计数，最后遍历所有特征和数据，寻找最优切分点。

直方图算法在运算内存和时间上都比预排序算法更好，但是，由于特征被离散化后，找到的并不是很精确的分割点，所以会对结果产生影响。但在不同的数据集上的结果表明，离散化的分割点对最终的精度影响并不是很大，甚至有时候会更好一点。

原因是决策树本来就是弱模型，分割点是不是精确并不是太重要；较粗的分割点也有正则化的效果，可以有效地防止过拟合；即使单棵树的训练误差比精确分割的算法稍大，但在梯度提升（Gradient Boosting）的框架下没有太大的影响。

leaf-wise VS level-wise

level-wise

XGBoost是按层生长（level-wise）的方式展开节点，优点是不容易过拟合，缺点是它对每一层叶子节点不加区分的进行展开，实际上某些叶子节点的分裂增益较低，没必要进行搜索和分裂。如下图所示：
在这里插入图片描述

leaf-wise

LightGBM是按最大增益的节点（叶子明智，Leaf-wise）进行展开，这样做的好处是找到分裂增益最大的叶子节点进行分裂，如此循环。优点是效率高，在分裂次数相同的情况下，Leaf-wise可以得到更高的准确率。缺点是可能会产生过拟合，通过设置树的最大生长深度避免。如下图所示：
在这里插入图片描述