决策树

最新推荐文章于 2025-09-27 15:38:35 发布

原创最新推荐文章于 2025-09-27 15:38:35 发布 · 1.6k 阅读

2 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

46 篇文章

订阅专栏

本文深入解析决策树算法，包括ID3、C4.5及CART的特性与优化策略，探讨决策树构建过程中的关键问题，如特征选择、数据分裂与停止条件。同时，文章对比了不同算法的优缺点，提供了丰富的实例帮助理解。

总结在前~~~~方便看
剪枝
REP—错误率降低剪枝
PEP—悲观剪枝 C4.5
CCP—代价复杂度剪枝 CART
在决策树算法中,ID3基于信息增益作为属性选择的度量, C4.5基于信息增益作为属性选择的度量, CART基于基尼指数作为属性选择的度量
C4.5是分类树最终要的算法，算法的思想其实很简单，但是分类的准确性高。可以说C4.5是ID3的升级版和强化版，解决了ID3未能解决的问题。要重点记住以下几个方面：
1.C4.5是采用信息增益率选择分裂的属性，解决了ID3选择属性时的偏向性问题；
2.C4.5能够对连续数据进行处理，采用一刀切的方式将连续型的数据切成两份，在选择切割点的时候使用信息增益作为择优的条件；
3.C4.5采用悲观剪枝的策略，一定程度上降低了过拟合的影响。

（1）CART是一棵二叉树，每一次分裂会产生两个子节点，对于连续性的数据，直接采用与C4.5相似的处理方法，对于离散型数据，选择最优的两种离散值组合方法。
（2）CART既能是分类数，又能是二叉树。如果是分类树，将选择能够最小化分裂后节点GINI值的分裂属性；如果是回归树，选择能够最小化两个节点样本方差的分裂属性。
（3）CART跟C4.5一样，需要进行剪枝，采用CCP（代价复杂度的剪枝方法）。

决策树
首先是个简单的动画描述
根据一些 feature（特征）进行分类，每个节点提一个问题，通过判断，将数据分为两类，再继续提问。这些问题是根据已有数据学习出来的，再投入新数据的时候，就可以根据这棵树上的问题，将数据划分到合适的叶子上。在这里插入图片描述
决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。
分类树（决策树）是一种十分常用的分类方法。他是一种监管学习，所谓监管学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

组成部分在这里插入图片描述
在决策树算法中,ID3基于信息增益作为属性选择的度量, C4.5基于信息增益作为属性选择的度量, CART基于基尼指数作为属性选择的度量
结构

显然，决策树在逻辑上以树的形式存在，包含根节点、内部结点和叶节点。

根节点：包含数据集中的所有数据的集合
内部节点：每个内部节点为一个判断条件，并且包含数据集中满足从根节点到该节点所有条件的数据的集合。根据内部结点的判断条件测试结果，内部节点对应的数据的集合别分到两个或多个子节点中。
叶节点：叶节点为最终的类别，被包含在该叶节点的数据属于该类别。

简而言之，决策树是一个利用树的模型进行决策的多分类模型，简单有效，易于理解。

决策树如何做决策

从一个分类例子说起：

银行希望能够通过一个人的信息（包括职业、年龄、收入、学历）去判断他是否有贷款的意向，从而更有针对性地完成工作。下表是银行现在能够掌握的信息，我们的目标是通过对下面的数据进行分析建立一个预测用户贷款一下的模型。
https://www.cnblogs.com/yonghao/p/5061873.html 例子网页
　　　　　　　　　　　　　　　　　　　　　　　　　　　　
上边中有4个客户的属性，如何综合利用这些属性去判断用户的贷款意向？决策树的做法是每次选择一个属性进行判断，如果不能得出结论，继续选择其他属性进行判断，直到能够“肯定地”判断出用户的类型或者是上述属性都已经使用完毕。比如说我们要判断一个客户的贷款意向，我们可以先根据客户的职业进行判断，如果不能得出结论，再根据年龄作判断，这样以此类推，直到可以得出结论为止。

通过图2.1的训练数据，我们可以建议图2.1所示的决策树，其输入是用户的信息，输出是用户的贷款意向。如果要判断某一客户是否有贷款的意向，直接根据用户的职业、收入、年龄以及学历就可以分析得出用户的类型。如某客户的信息为：{职业、年龄，收入，学历}={工人、39， 1800，小学}，将信息输入上述决策树，可以得到下列的分析步骤和结论。

第一步：根据该客户的职业进行判断，选择“工人”分支；

第二步：根据客户的年龄进行选择，选择年龄”<=40”这一分支；

第三步：根据客户的学历进行选择，选择”小学”这一分支，得出该客户无贷款意向的结论。

决策树的构建

那么问题就来了，如何构建如图2.1所示一棵决策树呢？决策树的构建是数据逐步分裂的过程，构建的步骤如下:

步骤1：将所有的数据看成是一个节点，进入步骤2；

步骤2：从所有的数据特征中挑选一个数据特征对节点进行分割，进入步骤3；

步骤3：生成若干孩子节点，对每一个孩子节点进行判断，如果满足停止分裂的条件，进入步骤4；否则，进入步骤2；

步骤4：设置该节点是子节点，其输出的结果为该节点数量占比最大的类别。

  从上述步骤可以看出，决策生成过程中有两个重要的问题：

（1）数据如何分割

（2）如何选择分裂的属性

（3）什么时候停止分裂
3.1 数据分割

假如我们已经选择了一个分裂的属性，那怎样对数据进行分裂呢？

分裂属性的数据类型分为离散型和连续性两种情况，对于离散型的数据，按照属性值进行分裂，每个属性值对应一个分裂节点；对于连续性属性，一般性的做法是对数据按照该属性进行排序，再将数据分成若干区间，如[0,10]、[10,20]、[20,30]…，一个区间对应一个节点，若数据的属性值落入某一区间则该数据就属于其对应的节点。

3.2 分裂属性的选择

我们知道了分裂属性是如何对数据进行分割的，那么我们怎样选择分裂的属性呢？

决策树采用贪婪思想进行分裂，即选择可以得到最优分裂结果的属性进行分裂。那么怎样才算是最优的分裂结果？最理想的情况当然是能找到一个属性刚好能够将不同类别分开，但是大多数情况下分裂很难一步到位，我们希望每一次分裂之后孩子节点的数据尽量”纯”，以下图为例：

选择分裂属性是要找出能够使所有孩子节点数据最纯的属性，决策树使用信息增益或者信息增益率作为选择属性的依据。
( 在决策树算法中,ID3基于信息增益作为属性选择的度量, C4.5基于信息增益作为属性选择的度量, CART基于基尼指数作为属性选择的度量)

（1）信息增益
用信息增益表示分裂前后跟的数据复杂度和分裂节点数据复杂度的变化值，计算公式表示为：
在这里插入图片描述

其中Gain表示节点的复杂度，Gain越高，说明复杂度越高。信息增益说白了就是分裂前的数据复杂度减去孩子节点的数据复杂度的和，信息增益越大，分裂后的复杂度减小得越多，分类的效果越明显。

节点的复杂度可以用以下两种不同的计算方式：

a）熵

熵描述了数据的混乱程度，熵越大，混乱程度越高，也就是纯度越低；反之，熵越小，混乱程度越低，纯度越高。熵的计算公式如下所示：
在这里插入图片描述

其中Pi表示类i的数量占比。以二分类问题为例，如果两类的数量相同，此时分类节点的纯度最低，熵等于1；如果节点的数据属于同一类时，此时节点的纯度最高，熵等于0。

b）基尼值

基尼值计算公式如下：
在这里插入图片描述

其中Pi表示类i的数量占比。其同样以上述熵的二分类例子为例，当两类数量相等时，基尼值等于0.5 ；当节点数据属于同一类时，基尼值等于0 。基尼值越大，数据越不纯。

在这里插入图片描述

（2）信息增益率

在这里插入图片描述

3.3 停止分裂的条件

决策树不可能不限制地生长，总有停止分裂的时候，最极端的情况是当节点分裂到只剩下一个数据点时自动结束分裂，但这种情况下树过于复杂，而且预测的经度不高。一般情况下为了降低决策树复杂度和提高预测的经度，会适当提前终止节点的分裂。

以下是决策树节点停止分裂的一般性条件：

（1）最小节点数

当节点的数据量小于一个指定的数量时，不继续分裂。两个原因：一是数据量较少时，再做分裂容易强化噪声数据的作用；二是降低树生长的复杂性。提前结束分裂一定程度上有利于降低过拟合的影响。

（2）熵或者基尼值小于阀值。

由上述可知，熵和基尼值的大小表示数据的复杂程度，当熵或者基尼值过小时，表示数据的纯度比较大，如果熵或者基尼值小于一定程度数，节点停止分裂。

（3）决策树的深度达到指定的条件

节点的深度可以理解为节点与决策树跟节点的距离，如根节点的子节点的深度为1，因为这些节点与跟节点的距离为1，子节点的深度要比父节点的深度大1。决策树的深度是所有叶子节点的最大深度，当深度到达指定的上限大小时，停止分裂。

（4）所有特征已经使用完毕，不能继续进行分裂。

被动式停止分裂的条件，当已经没有可分的属性时，直接将当前节点设置为叶子节点。

3.4 决策树的构建方法

根据决策树的输出结果，决策树可以分为分类树和回归树，分类树输出的结果为具体的类别，而回归树输出的结果为一个确定的数值。

决策树的构建算法主要有ID3、C4.5、CART三种，其中ID3和C4.5是分类树，CART是分类回归树

其中ID3是决策树最基本的构建算法，而C4.5和CART是在ID3的基础上进行优化的算法。

决策树的优化

一棵过于复杂的决策树很可能出现过拟合的情况，如果完全按照3中生成一个完整的决策树可能会出现预测不准确的情况，因此需要对决策树进行优化，优化的方法主要有两种，一是剪枝，二是组合树，将在本系列的剪枝和组合树中分别讲述。

初识ID3

回顾决策树的基本知识，其构建过程主要有下述三个重要的问题：

（1）数据是怎么分裂的

（2）如何选择分类的属性

（3）什么时候停止分裂

从上述三个问题出发，以实际的例子对ID3算法进行阐述。
https://www.cnblogs.com/yonghao/p/5096358.html
实例网站
总结

ID3是基本的决策树构建算法，作为决策树经典的构建算法，其具有结构简单、清晰易懂的特点。虽然ID3比较灵活方便，但是有以下几个缺点：

（1）采用信息增益进行分裂，分裂的精确度可能没有采用信息增益率进行分裂高

（2）不能处理连续型数据，只能通过离散化将连续性数据转化为离散型数据

（3）不能处理缺省值

（4）没有对决策树进行剪枝处理，很可能会出现过拟合的问题

如上所述，ID3方法主要有几个缺点：一是采用信息增益进行数据分裂，准确性不如信息增益率；二是不能对连续数据进行处理，只能通过连续数据离散化进行处理；三是没有采用剪枝的策略，决策树的结构可能会过于复杂，可能会出现过拟合的情况。

C4.5在ID3的基础上对上述三个方面进行了相应的改进：

a） C4.5对节点进行分裂时采用信息增益率作为分裂的依据；
b）能够对连续数据进行处理；
c） C4.5采用剪枝的策略，对完全生长的决策树进行剪枝处理，一定程度上降低过拟合的影响。
https://www.cnblogs.com/yonghao/p/5122703.html

总结：

要记住，C4.5是分类树最终要的算法，算法的思想其实很简单，但是分类的准确性高。可以说C4.5是ID3的升级版和强化版，解决了ID3未能解决的问题。要重点记住以下几个方面：

1.C4.5是采用信息增益率选择分裂的属性，解决了ID3选择属性时的偏向性问题；

2.C4.5能够对连续数据进行处理，采用一刀切的方式将连续型的数据切成两份，在选择切割点的时候使用信息增益作为择优的条件；

3.C4.5采用悲观剪枝的策略，一定程度上降低了过拟合的影响。
https://www.cnblogs.com/yonghao/p/5135386.html

总结：

（1）CART是一棵二叉树，每一次分裂会产生两个子节点，对于连续性的数据，直接采用与C4.5相似的处理方法，对于离散型数据，选择最优的两种离散值组合方法。

（2）CART既能是分类数，又能是二叉树。如果是分类树，将选择能够最小化分裂后节点GINI值的分裂属性；如果是回归树，选择能够最小化两个节点样本方差的分裂属性。

（3）CART跟C4.5一样，需要进行剪枝，采用CCP（代价复杂度的剪枝方法）。
优点：

易于理解和解释，决策树可以可视化。
几乎不需要数据预处理。其他方法经常需要数据标准化，创建虚拟变量和删除缺失值。决策树还不支持缺失值。
使用树的花费（例如预测数据）是训练数据点(data points)数量的对数。
可以同时处理数值变量和分类变量。其他方法大都适用于分析一种变量的集合。
可以处理多值输出变量问题。
使用白盒模型。如果一个情况被观察到，使用逻辑判断容易表示这种规则。相反，如果是黑盒模型（例如人工神经网络），结果会非常难解释。
即使对真实模型来说，假设无效的情况下，也可以较好的适用。
缺点：

决策树学习可能创建一个过于复杂的树，并不能很好的预测数据。也就是过拟合。修剪机制（现在不支持），设置一个叶子节点需要的最小样本数量，或者数的最大深度，可以避免过拟合。
决策树可能是不稳定的，因为即使非常小的变异，可能会产生一颗完全不同的树。这个问题通过decision trees with an ensemble来缓解。
学习一颗最优的决策树是一个NP-完全问题under several aspects of optimality and even for simple concepts。因此，传统决策树算法基于启发式算法，例如贪婪算法，即每个节点创建最优决策。这些算法不能产生一个全家最优的决策树。对样本和特征随机抽样可以降低整体效果偏差。
概念难以学习，因为决策树没有很好的解释他们，例如，XOR, parity or multiplexer problems.
如果某些分类占优势，决策树将会创建一棵有偏差的树。因此，建议在训练之前，先抽样使样本均衡。
决策树算法主要包括三个部分：特征选择、树的生成、树的剪枝。常用算法有 ID3、C4.5、CART。

特征选择。特征选择的目的是选取能够对训练集分类的特征。特征选择的关键是准则：信息增益、信息增益比、Gini 指数；

决策树的生成。通常是利用信息增益最大、信息增益比最大、Gini 指数最小作为特征选择的准则。从根节点开始，递归的生成决策树。相当于是不断选取局部最优特征，或将训练集分割为基本能够正确分类的子集；

决策树的剪枝。决策树的剪枝是为了防止树的过拟合，增强其泛化能力。包括预剪枝和后剪枝。