集成学习(Bagging与Boosting)及案列讲解

本文介绍了集成学习的基本概念,重点探讨了Boosting和Bagging两种方法。Bagging通过采样数据集训练多个分类器并进行平权投票,而随机森林是Bagging与决策树的结合。文章详细解释了随机森林的构建过程,包括有放回抽样和包外估计(Out-of-Bag Estimate)的概念,并讨论了随机森林的API。同时,文章还提供了随机森林预测案例的代码分析和完整代码。最后,对比了Bagging与Boosting在数据处理、投票方式、学习顺序和主要作用上的区别。

1 什么是集成学习

集成学习通过建⽴⼏个模型来解决单⼀预测问题。 它的⼯作原理是⽣成多个分类器/模型, 各⾃独⽴地学习和作出预测。 这些预测最后结合成组合预测, 因此优于任何⼀个单分类的做出预测。
 

2 机器学习的两个核心任务

任务⼀: 如何优化训练数据 —> 主要⽤于解决⽋拟合问题
任务⼆: 如何提升泛化性能 —> 主要⽤于解决过拟合问题
 

3 集成学习中Boosting 和 Bagging

只要单分类器的表现不太差, 集成学习的结果总是要好于单分类器的
 

4 Bagging 和 随机森林

4.1 Bagging 集成原理

目标:把下面的圈和方块进行分类

实现过程:
1) 采样不同数据集

2)训练分类器

3)平权投票, 获取最终结果

4)主要实现过程⼩结

4.2 随机森林构造过程

在机器学习中, 随机森林是⼀个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数⽽定。随机森林 = Bagging + 决策树

例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个树的结果是False, 那么最终投票结果就是True
随机森林够造过程中的关键步骤(M表示特征数⽬):
1)⼀次随机选出⼀个样本, 有放回的抽样, 重复N次(有可能出现重复的样本)
2) 随机去选出m个特征, m <<M, 建⽴决策树

 

  • 思考

 1.为什么要随机抽样训练集?

  •   如果
内容概要:本文详细介绍了三种常见的集成学习方法:BaggingBoosting 和 Stacking。Bagging 通过有放回的抽样方式生成多个训练集,分别训练多个基学习器,再通过投票或平均的方式融合结果,以降低模型的方差并提高稳定性。Boosting 通过逐层提升的方式,每次迭代中根据前一轮的错误率调整样本权重,使得后续学习器更关注之前分类错误的样本,从而逐步提升模型性能。Stacking 则是通过多层学习的方式,先用不同算法训练多个基学习器,再将这些基学习器的预测结果作为新特征,训练一个高层次的元学习器,以实现更复杂的特征捕捉和更高的预测精度。 适合人群:对机器学习有一定了解,希望深入理解集成学习方法的原理和应用场景的研究人员、工程师以及相关领域的学生。 使用场景及目标:① 在需要提高模型稳定性和泛化能力时使用 Bagging,尤其适用于高方差模型如决策树;② 当希望通过迭代优化逐步提升模型性能时使用 Boosting,适合处理不平衡数据集或需要更强预测能力的任务;③ 在希望充分利用不同算法优势,捕捉更复杂数据关系时使用 Stacking,适用于复杂特征提取和高精度预测任务。 阅读建议:本文提供了三种集成学习方法的具体实现步骤和应用场景,建议读者结合实际案例进行理解,并尝试在实践中应用这些方法,通过实验对比不同集成方法的效果,加深对其原理的理解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值