R---randomForest

本文介绍了随机森林算法的基本原理及其内部构造,解释了它是如何通过多棵决策树进行预测,并讨论了该算法的优势,如避免过拟合、处理高维数据的能力等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

随机森林(randomForest)是利用多棵决策树对样本数据进行训练并预测的分类器。算法预测输出的类别标签 是由算法内部 多棵决策树 生成的标签的众数决定的。
内部构造:
假设数据集有m个变量,算法对数据集进行分裂,随机有放回的取出n(n<m)个变量和部分数据案例生成一个决策树(树不用剪枝,最大化生长),一直这样不断生成决策树,树多了就是森林了,加上又是随机分裂的,所以称随机森林了(我个人理解的)
因为随机分裂,所以算法中的决策树之间无关联,当一个新数据输入模型时,会根据算法中各决策树输出的标签的类别,取众数作为输出标签。
randomforest的优点:
1.相比于决策树,可以很好的避免过拟合问题。
2.能处理维度很高的数据集。
3.创建随机森林 是无偏估计
4.实现简单
R中randomForest包中的rondomForest函数
 rf_m=randomForest(label~.,data[train],ntree=50,nPerm=10,mtry=3,proximity=TRUE,importance=TRUE)
 leabel~.:代表需要预测的列,
ntree:生成决策树的数目
nperm:计算importance时的重复次数    #可以不写  
mtry:选择的分裂属性的个数    #可以不写
proximity=TRUE:表示生成临近矩阵  # 可以不写
importance=TRUE:输出分裂属性的重要性   #可以不写
rf_pred = predict(rf_m,data[test])
可以用gmodel包中的CrossTable 验证结果。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值