XGBoost系列文章（二）：数学原理与推导

最新推荐文章于 2025-08-05 19:25:24 发布

莫比乌斯@卷

最新推荐文章于 2025-08-05 19:25:24 发布

阅读量799

点赞数 17

CC 4.0 BY-SA版权

分类专栏：原理概念 # 机器学习文章标签：机器学习 xgboost

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/maoyu_dual/article/details/145802135

XGBoost系列文章（二）：数学原理与推导

本文是XGBoost系列的第二篇，将深入解析其数学原理，用通俗语言+公式推导解释核心设计。内容涵盖目标函数、泰勒展开、正则化、节点分裂等关键环节，适合希望理解算法本质的读者。

1. XGBoost的目标函数由哪两部分组成？各自作用是什么？

XGBoost的目标函数是模型优化的核心，其形式为：
$\text{Obj} = \sum_{i=1}^n L(y_i, \hat{y}_i) + \sum_{k=1}^K \Omega(f_k)$

第一部分：损失函数（Loss Function）
$\sum_{i=1}^n L(y_i, \hat{y}_i)$
衡量预测值 $\hat{y}_i$ 与真实值 $y_i$ 的误差。例如：
- 回归任务：均方误差（MSE） $(y_i - \hat{y}_i)^2$
- 分类任务：对数损失（Logloss） $L = -y_i \log p_i - (1-y_i)\log(1-p_i)$
第二部分：正则化项（Regularization Term）
$\sum_{k=1}^K \Omega(f_k)$
控制模型复杂度，防止过拟合。XGBoost的正则化项定义为：
$\Omega(f_k) = \gamma T + \frac{1}{2}\lambda \sum_{j=1}^T w_j^2 + \alpha \sum_{j=1}^T |w_j|$
- $T$ : 树的叶子节点数
- $w_j$ : 第 $j$ 个叶子节点的权重
- $\gamma$ , $\lambda$ , $\alpha$ : 超参数，惩罚复杂树结构

一句话总结：目标函数 = 让预测尽量准（损失函数） + 让模型尽量简单（正则化）。

2. 如何推导XGBoost的损失函数在泰勒二阶展开后的形式？

XGBoost采用泰勒二阶展开近似损失函数，具体推导如下：
假设在第 $t$ 次迭代时，模型预测值为 $\hat{y}_i^{(t)} = \hat{y}_i^{(t-1)} + f_t(x_i)$ ，则损失函数展开为：
$\begin{aligned} L(y_i, \hat{y}_i^{(t)}) &\approx L(y_i, \hat{y}_i^{(t-1)}) + g_i f_t(x_i) + \frac{1}{2} h_i f_t^2(x_i) \\ \text{其中：} \quad g_i &= \frac{\partial L(y_i, \hat{y}_i^{(t-1)})}{\partial \hat{y}_i^{(t-1)}} \quad (\text{一阶导数}) \\ h_i &= \frac{\partial^2 L(y_i, \hat{y}_i^{(t-1)})}{\partial (\hat{y}_i^{(t-1)})^2} \quad (\text{二阶导数}) \end{aligned}$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

莫比乌斯@卷 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。