决策树算法详解-CSDN博客

本文链接：https://blog.csdn.net/ZJ__ZFH/article/details/101051840

ID3决策树

信息熵，是度量样本集合纯度最常用的一种指标，其定义如下
$-\sum_{k=1}^{|\mathcal{Y}|}p_{k}\log_{2}p_{k}$
其中 $,(xn,yn)}D=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),\cdots,(x_{n},y_{n}) \right \}$ 表示样本集合， $∣Y∣|\mathcal{Y}|$ 表示样本类别总数，如果是二分类，就是2， $p_{k}$ 表示第 $k$ 类样本所占比例，且 $\leq p_{k}\leq 1 ,\sum_{k=1}^{|\mathcal{Y}|}p_{k} = 1$ ， $E n t (D)$ 值越小，纯度越高

证明： $\leq Ent(D) \leq \log_{2}|\mathcal{Y}|$

求 $E n t (D)$ 最大值，若令 $∣Y∣=n,pk=xk|\mathcal{Y}|=n,p_{k}=x_{k}$ ，则是一个n分类问题，那么信息熵 $E n t (D)$ 就可以看作一个n元实值函数，也即
$f(x_{1},x_{2},\cdots,x_{n}) = -\sum_{k=1}^{n}x_{k}\log_{2}x_{k}$
$\leq x_{k}\leq 1 ,\sum_{k=1}^{n}x_{k} = 1$ ,下面考虑求该多元函数的最值

如果不考虑约束 $\leq x_{k}\leq 1$ ,仅考虑 $∑k=1nxk=1\sum_{k=1}^{n}x_{k} = 1$ 的话，对 $,xn)f(x_{1},x_{2},\cdots,x_{n})$ 求最大值等价于如下最小化问题
$\sum_{k=1}^{n}x_{k}\log_{2}x_{k}\\ s.t. \sum_{k=1}^{n}x_{k} = 1$
$∑k=1nxklog⁡2xk\sum_{k=1}^{n}x_{k}\log_{2}x_{k}$ 可以看成是n个 $x\log_{2}x$ 求和

单独看其中一个函数，记 $f(x) = xlog_{2}x$ ，则
$log_{2}x + x\cdot \frac{1}{x\ln 2} = log_{2}x + \frac{1}{\ln 2}\\ f''(x) = \frac{1}{x\ln 2}$
当 $\leq x\leq 1$ , $f^{''} (x) > 0$ ,所以 $f (x)$ 是凸函数，由n个 $f (x)$ 组合而成的 $∑k=1nxklog⁡2xk\sum_{k=1}^{n}x_{k}\log_{2}x_{k}$ 函数也是凸函数

在 $\leq x_{k}\leq 1$ 时，此问题为凸优化问题，而对于凸优化问题来说，满足KKT条件的点即为最优解，由于此最小化问题仅含等式约束，那么令其拉格朗日函数的一阶偏导数等于0的点即为满足KKT条件的点

根据拉格朗日乘子法可知，该优化问题的拉格朗日函数为
$L(x_{1},\cdots,x_{n},\lambda ) = \sum_{k=1}^{n}x_{k}\log_{2}x_{k} + \lambda(\sum_{k=1}^{n}x_{k} - 1)$
对该拉格朗日函数分别关于 $,xn,λx_{1},\cdots,x_{n},\lambda$ 求一阶偏导数，并令偏导数等于0

先对 $x_{1}$ 求偏导等于0
$\begin{aligned} \frac{\partial L(x_{1},\cdots,x_{n},\lambda )}{\partial x_{1}} &= \frac{\partial }{\partial x}\left [ \sum_{k=1}^{n}x_{k}\log_{2}x_{k} + \lambda(\sum_{k=1}^{n}x_{k} - 1) \right ] \\&= log_{2}x_{1} + x_{1}\cdot \frac{1}{x_{1}\ln 2} + \lambda \\&= log_{2}x_{1} + \frac{1}{\ln 2} + \lambda =0 \end{aligned}$
得
$\lambda = -log_{2}x_{1} - \frac{1}{\ln 2}$
然后分别对 $,xn{x_{2},\cdots, x_{n}}$ 分别求偏导，可得
$\lambda = -log_{2}x_{1} - \frac{1}{\ln 2} = -log_{2}x_{2} - \frac{1}{\ln 2} = \cdots = -log_{2}x_{n} - \frac{1}{\ln 2}$
对 $λ\lambda$ 求偏导
$\frac{\partial L(x_{1},\cdots,x_{n},\lambda )}{\partial \lambda} = \frac{\partial }{\partial \lambda}\left [ \sum_{k=1}^{n}x_{k}\log_{2}x_{k} + \lambda(\sum_{k=1}^{n}x_{k} - 1) \right ] = \sum_{k=1}^{n}x_{k} - 1$
令其等于0得
$\sum_{k=1}^{n}x_{k} = 1$
所以可以解得 $x1=x2=⋯=xn=1nx_{1} = x_{2} = \cdots = x_{n} = \frac{1}{n}$ (因为 $x1=x2=⋯=xnx_{1} = x_{2} = \cdots = x_{n}$ 且 $∑k=1nxk=1\sum_{k=1}^{n}x_{k} = 1$ )

又因为 $x_{k}$ 还要满足 $\leq x_{k}\leq 1$ ，显然 $\leq \frac{1}{n} \leq 1$ ，所以 $x1=x2=⋯=xn=1nx_{1} = x_{2} = \cdots = x_{n} = \frac{1}{n}$ 是满足所有约束的最优解，也即为当前最小化问题的最小值点，同时也是$ f(x_{1},x_{2},\cdots,x_{n}) $的最大值点，将$ x_{1} = x_{2} = \cdots = x_{n} = \frac{1}{n} $代入$ f(x_{1},x_{2},\cdots,x_{n})$中可得
$f(\frac{1}{n},\frac{1}{n},\cdots,\frac{1}{n}) = -\sum_{k=1}^{n}\frac{1}{n}\log_{2}\frac{1}{n} = -n\cdot \frac{1}{n} \cdot \log_{2}\frac{1}{n} = \log_{2}n$
所以$ f(x_{1},x_{2},\cdots,x_{n})$在满足约束 $\leq x_{k}\leq 1,\sum_{k=1}^{n}x_{k} = 1$ 时的最大值为 $log_{2}n$

求 $E n t (D)$ 的最小值

如果不考虑 $∑k=1nxk=1\sum_{k=1}^{n}x_{k} = 1$ ,仅考虑 $x_{k}\leq 1$ 的话，$ f(x_{1},x_{2},\cdots,x_{n})$可以看成是n个互不相关的一元函数加和，也即
$f(x_{1},x_{2},\cdots,x_{n}) =\sum_{k=1}^{n}g(x_{k})$
其中， $g(x_{k}) = -x_{k}\log_{2}x_{k}$ ， $\leq x_{k}\leq 1$ ，那么当 $,g(xk)g(x_{1}),g(x_{2}),\cdots,g(x_{k})$ 分别取到其最小值时， $,xn)f(x_{1},x_{2},\cdots,x_{n})$ 也就取到了最小值，由于 $,g(xk)g(x_{1}),g(x_{2}),\cdots,g(x_{k})$ 的定义域和函数表达式均相同，所以只需求出 $g(x_{1})$ 的最小值也就求出了 $,g(xk)g(x_{2}),\cdots,g(x_{k})$ 的最小值，下面考虑求 $g(x_{1})$ 的最小值

首先对 $g(x_{1})$ 关于 $x_{1}$ 求一阶和二阶导数
$g'(x_{1}) = -log_{2}x_{1} - x_{1}\cdot \frac{1}{x_{1}\ln 2} = -log_{2}x_{1} - \frac{1}{\ln 2}\\ g''(x_{1}) = -\frac{1}{x_{1}\ln 2}$
显然，当 $\leq x_{k}\leq 1$ 时 $g′′(x1)=−1x1ln⁡2g''(x_{1}) = -\frac{1}{x_{1}\ln 2}$ 恒小于0，所以 $g(x_{1})$ 是一个在其定义域范围内开口向下的凹函数，那么其最小值必定在边界取，于是分别取 $x_{1} = 0$ 和 $x_{1}=1$ 代入 $g(x_{1})$ 得
$g(0) = -0\log_{2}0 = 0\\ g(1) = -log_{2}1 = 0$
所以， $g(x_{1})$ 的最小值为0，同理可得 $,g(xk)g(x_{2}),\cdots,g(x_{k})$ 的最小值也为0，那么$ f(x_{1},x_{2},\cdots,x_{n})$的最小值也为0，但是，此时是仅考虑 $\leq x_{k}\leq 1$ 时取到的最小值，若考虑约束 $∑k=1nxk=1\sum_{k=1}^{n}x_{k} = 1$ 的话，那么$ f(x_{1},x_{2},\cdots,x_{n}) $的最小值一定大于等于 0 ，如果令某个$ x_{k}=1 $，那么根据约束$ \sum_{k=1}^{n}x_{k} = 1 $可知$ x_{1} = x_{2} = \cdots = x_{k-1} = x_{k+1} = \cdots = x_{n} = 0 $，将其代入$ f(x_{1},x_{2},\cdots,x_{n})$可得
$f(0,0,\cdots,1,0,\cdots,0) = -0\log_{2}0 - -0\log_{2}0 - \cdots -\log_{2}1 - -0\log_{2}0 - \cdots -0\log_{2}0 = 0$
所以 $xk=1,x1=x2=⋯=xk−1=xk+1=⋯=xn=0x_{k} = 1,x_{1} = x_{2} = \cdots = x_{k-1} = x_{k+1} = \cdots = x_{n} = 0$ 一定是$ f(x_{1},x_{2},\cdots,x_{n})$在满足约束 $\leq x_{k}\leq 1,\sum_{k=1}^{n}x_{k} = 1$ 的条件下的最小值，其最小值为0

条件熵：在已知样本属性a的取值情况下，度量样本集合纯度的一种指标
$\sum_{v=1}^{V}\frac{|D^v|}{D}Ent(D^v)$
其中， $a$ 表示样本的某个属性，假定属性 $a$ 有 $V$ 个可能的取值 $,aV}\left \{ a^1,a^2,\cdots,a^V\right \}$ ，样本集合 $D$ 中在属性 $a$ 上取值为 $a^V$ 的样本记为 $D^V$ , $Ent(D^V)$ 表示样本集合 $D^v$ 的信息熵， $H (D ∣ a)$ 值越小，纯度越高

ID3决策树，已信息增益为准则来选择划分属性的决策树，信息增益公式为
$\begin{aligned} Gain(D,a) &= Ent(D) - \sum_{v=1}^{V}\frac{|D^v|}{D}Ent(D^v) \\&= Ent(D) - H(D|a) \end{aligned}$
选择信息增益值最大的属性作为划分属性，因为信息增益越大，则意味着使用该属性来进行划分所获得的"纯度提升"越大

以信息增益为划分标准的ID3决策树对可取值越多数目较多的属性有所偏好
$\begin{aligned} Gain(D,a) &= Ent(D) - \sum_{v=1}^{V}\frac{|D^v|}{D}Ent(D^v) \\&= Ent(D) - \sum_{v=1}^{V}\frac{|D^v|}{D}(-\sum_{k=1}^{|\mathcal{Y}|}p_{k}\log_{2}p_{k}) \\&=Ent(D) - \sum_{v=1}^{V}\frac{|D^v|}{D}(-\sum_{k=1}^{|\mathcal{Y}|}p_{k}\log_{2}p_{k})\frac{|D_{k}^{v}|}{D^v} \end{aligned}$
其中， $D_{k}^{v}$ 样本集合 $D$ 中在属性 $a$ 上取值为 $a^{v}$ 且类别为 $k$ 的样本

C4.5决策树

C4.5决策树以信息增益率为准则来选择划分属性的决策树，信息增益率
$Gain_ratio(D,a)=Gain(D,a)IV(a) Gain\_ratio(D,a) = \frac{Gain(D,a)}{IV(a)}$
其中
$-\sum_{v=1}^{V}\frac{|D^v|}{D}\log_{2}\frac{|D^v|}{D}$

CART决策树

CART决策树以基尼指数为准则来选择划分属性的决策树

基尼值：
$\sum_{k=1}^{|\mathcal{Y}|}\sum_{k'\neq k}p_{k}p_{k'} = \sum_{k=1}^{|\mathcal{Y}|}p_{k}\sum_{k'\neq k}p_{k'} = \sum_{k=1}^{|\mathcal{Y}|}p_{k}(1-p_{k}) = 1-\sum_{k=1}^{|\mathcal{Y}|}p_{k}^2$
基尼指数：
$Gini_index(D,a)=∑v=1V∣Dv∣DGini(Dv) Gini\_index(D,a) =\sum_{v=1}^{V}\frac{|D^v|}{D}Gini(D^v)$
基尼值和基尼指数越小，样本集合纯度越高

CART决策树分类算法

根据基尼指数公式 $Gini_index(D,a)=∑v=1V∣Dv∣DGini(Dv)Gini\_index(D,a) =\sum_{v=1}^{V}\frac{|D^v|}{D}Gini(D^v)$ 找出基尼指数最小的属性 $a_{*}$
计算属性 $a_{*}$ 的所有可能取值的基尼值 $Gini(D^v)$ , $Vv=1,2,\cdots\,V$ ,选择季妮志最小的取值 $a_{*}^{v}$ 作为划分点，将集合 $D$ 划分为 $D 1$ 和 $D 2$ 两个集合(节点)，其中 $D 1$ 集合的样本为 $a_{*}=a_{*}^{v}$ 的样本， $D 2$ 集合为 $a∗≠a∗va_{*}\neq a_{*}^{v}$ 的样本
对集合 $D 1$ 和 $D 2$ 重复步骤1和步骤2，直到满足停止条件

CART决策树回归算法

根据以下公式找出最优划分特征 $a^*$ 和最优划分点 $a_{*}^v$
$a_{*},a_{*}^v = \underset{a,a^v}{arg min}\left [\underset{c_{1}}{min} \underset{x_{i} \in D_{1}(a,a^v)}{\sum }(y_{i}-c_{1})^2-\underset{c_{2}}{min} \underset{x_{i} \in D_{2}(a,a^v)}{\sum }(y_{i}-c_{2})^2 \right ]$
其中， $D_{1}(a,a^*)$ 表示在属性 $a$ 上取值小于等于 $a^v$ 的样本集合， $D_{2}(a,a^v)$ 表示在属性 $a$ 上取值大于 $a^v$ 的样本集合， $c_{1}$ 表示 $D_{1}$ 的样本输出均值， $c_{2}$ 表示 $D_{2}$ 的样本输出均值
根据划分点 $a_{*}^v$ 将集合 $D$ 划分为 $D_{1}$ 和 $D_{2}$ 两个集合(节点)
对集合 $D_{1}$ 和 $D_{2}$ 重复步骤1和步骤2，直至满足停止条件