机器学习算法:完全随机决策树与Setred算法解析
立即解锁
发布时间: 2025-08-22 02:26:45 阅读量: 29 订阅数: 45 AIGC 

### 机器学习算法:完全随机决策树与Setred算法解析
#### 完全随机决策树实验
在机器学习领域,为了探究完全随机决策树的性能,进行了一项实验。该实验主要有两个目的:一是找出八个可能变体中的主要贡献因素;二是验证完全随机树是否会过拟合。所有变体都会与基准分类器Bagging和随机森林进行比较,结果通过95%置信水平的符号检验来评估,以确定获胜是否具有统计学意义。
实验从UCI仓库中选取了四十个数据集,数据大小从一百到两万不等。每个集成使用一万棵树,对每个数据集进行十折交叉验证,并报告平均错误率。
以下是变体与基准分类器的两两比较结果总结(表格2):
| | Max-diverse Ensemble | PFO | PFB | PHO | PHB | VFO | VFB | VHO | VHB | Bagging | Random Forests |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| Max-diverse Ensemble | - | 21,19,0 | 20,19,1 | 17,23,0 | 17,23,0 | 14,26,0 | 11,29,0 | 11,29,0 | 11,29,0 | 19,20,1 | - |
| Bagging | 23,17,0 | - | 22,18,0 | 20,20,0 | 18,22,0 | 18,22,0 | 15,25,0 | 12,28,0 | 13,27,0 | - | - |
| VHB | 30,8,2 | 29,6,5 | 25,10,5 | 29,6,5 | 29,10,1 | 22,15,3 | 14,20,6 | - | - | - | - |
| VHO | 32,6,2 | 33,6,1 | 30,4,6 | 30,14,5 | 27,8,5 | 21,15,4 | - | - | - | - | - |
| VFB | 28,10,2 | 27,11,2 | 19,21,0 | 19,19,2 | 26,13,1 | - | - | - | - | - | - |
| VFO | 28,11,1 | 23,15,2 | 21,18,1 | 16,21,3 | - | - | - | - | - | - | - |
| PHB | 25,10,5 | 23,9,8 | 15,16,9 | - | - | - | - | - | - | - | - |
| PHO | 25,6,9 | 25,11,4 | - | - | - | - | - | - | - | - | - |
| PFB | 25,11,4 | - | - | - | - | - | - | - | - | - | - |
从这些结果可以总结出:
- PFO、PFB和PHO的表现与Bagging相当。
- PFO和PFB的表现与随机森林相当。
- PFO在与两个基准分类器的比较中获胜次数最多,在40次比较中分别有23次和21次获胜。
- PFO有十三个数据集的错误率最低,随机森林有十一个,Bagging有八个。
对于三个参数,结果总结如下:
- 根据符号检验,所有概率平均变体明显优于其投票对应变体。
- 全高树的表现优于半高树。
- 如之前所述,自助采样会损害准确性。
最准确的变体PFO与基准分类器相当,概率平均是完全随机决策树的主要贡献因素,我们将PFO称为“Max-diverse Ensemble”。它在所有变体中表现更好,平均错误率最低,为17.3%。总体而言,没有数据集出现过拟合现象,这消除了使用概率平均与完全随机树会导致过拟合的担忧。
###
0
0
复制全文
相关推荐









