随机森林笔记

本文探讨了随机森林模型中特征重要度的正负含义,指出其代表特征对预测性能的影响方向。同时,分析了n_estimators参数如何影响随机森林的随机性,揭示了模型中特征重要度得分的动态变化。当n_estimators较小,模型随机性增加,更多特征可能具有非零重要度得分。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在计算特征重要度时,正值表示该特征对模型预测目标的正向影响较大,即该特征的增加能够提高模型的预测性能;负值表示该特征对模型预测目标的负向影响较大,即该特征的减少能够提高模型的预测性能;零表示该特征对模型预测目标的影响较小,即该特征的变化对模型的预测性能影响不大。

如果一个特征的重要度为-0.1,另一个特征的重要度为+0.1,虽然它们的符号相反,但重要度的大小是相等的。

随机森林是由多个决策树组成的集成模型,它的随机性来源于两个方面:随机选择训练样本和随机选择特征。n_estimators是随机森林中决策树的数量,当n_estimators的取值较大时,每个基本决策树的建立过程中使用的特征和划分会趋于相似,因为它们都会看到训练数据集的完整特征。这会导致许多决策树都使用相同的特征和划分,导致较多的特征被剔除或重要度得分为0。

当n_estimators的取值较小时,每个基本决策树的建立都具有更强的随机性,因为它们只看到训练数据集的一个子集。这意味着,不同的决策树会使用不同的特征和划分,可能会导致更多的特征出现在分支中,从而使更多的特征具有非零的重要度得分。因此,当n_estimators较小时,随机森林的随机性增加,每个基本决策树使用的特征和划分更加不同,导致更多的特征出现在分支中,从而提高了这些特征的重要度得分。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AlphaFinance

您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值