决策树算法详解：信息熵、信息增益与C4.5、CART-CSDN博客

决策树

信息熵
- 自信息
ID3决策树
C4.5决策树
- 增益率
CART决策树
- 基尼值

信息熵

自信息

一、
$I(X)=-log_bp(x)$
当b=2时，其单位为比特，当b=e时，其单位为nat
信息熵（自由信息的期望）：度量随机变量 $X$ 的不确定性，信息熵越大越不确定
$H(X)=E[I(X)]=-\sum\limits_{x}p(x)log_bp(x)$
计算信息熵时约定：若 $p (x) = 0$ ,则 $p(x)log_bp(x)=0$ .当 $X$ 的某个取值的概率为1时熵最小，其值为0；当 $X$ 的各个取值的概率均等时信息熵最大。其值为 $log_b|X|$ ,其中 $∣ X ∣$ 表示 $X$ 可能取值的个数。
二、将样本类别标记为 $y$ 视作随机变量，各个类别在样本几何 $D$ 中的占比 $P k (k = 1, 2, 3 . . . ∣ y ∣)$ 视作各个类别取值的概率，则样本集合 $D (随机变量 y)$ 的信息熵（底数b取2）为
$Ent(D)=-\sum\limits_{x=1}^yp_klog_2p_k$
此时信息熵所代表的不确定性可以转换理解为集合内样本的纯度。

ID3决策树

算法原理

一、
1.从逻辑的角度分析，通过大量的条件判断语句的组合
2.从几何的的角度分析，根据某种准则划分特征空间
3.最终母的：将样本越分越纯
在这里插入图片描述

通过几何的角度来分析玫瑰（特征分类），
①对于色泽和红色的值越大的玫瑰，我们将它认为是好的玫瑰。
②色泽与红色值越小的玫瑰，我们将它认为不好的玫瑰。

条件熵

条件熵（ $Y$ 的信息熵关于概率分布 $X$ 的期望）：在已知 $X 和 Y$ 的不确定性时，
$H(Y/X)=\sum\limits_{x}p(x)H(Y/X=x)$
从单个属性特征 $a$ 来看，假设其可能取值为 $a^1,a^2....a^v,D^v$ 表示属性 $a$ 取值为 $a^v∈{a^1,a^2....a^v}$ 的样本集合。 $\frac{ D^v}{D}$ 的表示占比，那么在已知属性 $a$ 的取值后，样本的集合 $D$ 的熵为
$\sum\limits_{x}^V\frac{ D^v}{D}Ent(D^v)$

信息增益

在已知属性特征 $a$ 的取值后 $y$ 的不确定性减少的量，也即纯度的提升
$Gain(D,a)=Ent(D)-\sum\limits_{x}^V\frac{ D^v}{D}Ent(D^v)$
以信息增益为准则来选择划分属性的决策树
$a_*=argmaxGain(D,a) a∈A$

C4.5决策树

增益率

信息增益准则可能取值数目较多的属性有所偏好，为了减少这些偏好可能带来不利的影响，C4.5决策树使用"增益率"代替“信息”,增益率定义为
$Gain_ratio(D,a)=\frac{ Gain(D,a)}{IV(a)}$
其中
$IV(a)=-\sum\limits_{x}^V\frac{ D^v}{D}log_2\frac{ D^v}{D}$
称为属性 $a$ 的固定值， $a$ 的可能取值个数 $V 越大$ ，通常其固有值 $I V (a)$ 也越大，但是，增益率对可能取值的数目较少的属性有所偏好。

CART决策树

基尼值

基尼值：从样本集合 $D$ 中随机抽取的两个样本，其类别标记不一致的概率。因此，基尼值越小，碰到异类的概率就越小，纯度自然就越高
$Gini(D)=\sum\limits_{k=1}^y\sum\limits_{k^`}p_kp_{k^1}$
$=\sum\limits_{k=1}^yp_k(1-p_k)$
$=1-\sum\limits_{k=1}^yp_k^2$