什么是信息增益比

彬彬侠

已于 2024-10-02 00:56:59 修改

阅读量1.6k

点赞数 10

CC 4.0 BY-SA版权

分类专栏：机器学习(笔记) 文章标签：机器学习决策树概率论人工智能

于 2024-10-02 00:55:45 首次发布

360 篇文章

订阅专栏

信息增益比（Information Gain Ratio） 是对 信息增益（Information Gain, IG） 的改进，它考虑了特征的不同取值数量对信息增益的影响，避免了信息增益偏向于取值较多特征的倾向。信息增益比常用于构建决策树，特别是在C4.5决策树算法中。

信息增益（IG） 在选择特征时，通常会选择信息增益最大的特征进行划分。然而，信息增益会偏向那些取值较多的特征。例如，如果一个特征有非常多的不同值（如唯一标识符），该特征可能在划分时导致信息增益非常大，但并不代表该特征实际上对分类有较大的贡献。

为了解决这个问题，引入了信息增益比（Gain Ratio）。信息增益比在信息增益的基础上考虑了特征取值的数量，并对取值较多的特征进行惩罚。

信息增益比的计算公式为：
$\text{Gain Ratio}(D, X) = \frac{IG(D, X)}{IV(X)}$

其中：

$I G (D, X)$ 是特征 $X$ 的信息增益，它衡量特征 $X$ 对数据集 $D$ 中不确定性减少的程度。
$I V (X)$ 是特征 $X$ 的固有值（Intrinsic Value），用于衡量特征 $X$ 的取值分布，它表示特征 $X$ 将数据划分成不同子集的“离散性”或“多样性”。

固有值 $I V (X)$ 的公式为：
$\sum_{i=1}^n \frac{|D_i|}{|D|} \log_2 \frac{|D_i|}{|D|}$

其中：

固有值的作用是衡量特征的取值数量和分布。如果特征 $X$ 的取值非常多且每个取值对应的数据量很少，固有值会很大，这会降低信息增益比的值。

计算信息增益 $I G (D, X)$ ：
- 首先，计算特征 $X$ 的信息增益，表示特征 $X$ 对数据集 $D$ 的不确定性减少的程度。
计算特征的固有值 $I V (X)$ ：
- 接着，计算特征的固有值 $I V (X)$ ，表示特征 $X$ 的取值分布的离散性。
计算信息增益比 $Ratio(D,X)\text{Gain Ratio}(D, X)$ ：
- 最后，计算信息增益比，将信息增益 $I G (D, X)$ 除以固有值 $I V (X)$ 。如果固有值 $I V (X)$ 非常大，信息增益比会较小，防止算法偏向那些取值较多的特征。

假设我们有一个二元分类问题，并且特征 $X_1$ 和 $X_2$ 可分别取两种和十种不同的值。我们计算了特征 $X_1$ 和 $X_2$ 的信息增益，假设：

根据信息增益的结果，特征 $X_2$ 似乎是一个更好的选择。但是，特征 $X_2$ 有更多的取值，因此它可能由于取值的数量而获得了较高的信息增益。因此，我们引入固有值进行调整。

假设我们计算了固有值：

我们可以计算信息增益比：

特征 $X_1$ 的信息增益比 $Ratio(D,X1)=0.50.9≈0.56\text{Gain Ratio}(D, X_1) = \frac{0.5}{0.9} \approx 0.56$
特征 $X_2$ 的信息增益比 $Ratio(D,X2)=0.72.0=0.35\text{Gain Ratio}(D, X_2) = \frac{0.7}{2.0} = 0.35$