集成学习（Bagging与Boosting）及案列讲解

最新推荐文章于 2024-01-18 21:09:40 发布

原创

最新推荐文章于 2024-01-18 21:09:40 发布 · 1.3k 阅读

·

2

·

本文介绍了集成学习的基本概念，重点探讨了Boosting和Bagging两种方法。Bagging通过采样数据集训练多个分类器并进行平权投票，而随机森林是Bagging与决策树的结合。文章详细解释了随机森林的构建过程，包括有放回抽样和包外估计（Out-of-Bag Estimate）的概念，并讨论了随机森林的API。同时，文章还提供了随机森林预测案例的代码分析和完整代码。最后，对比了Bagging与Boosting在数据处理、投票方式、学习顺序和主要作用上的区别。

1 什么是集成学习

集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。

2 机器学习的两个核心任务

任务⼀：如何优化训练数据 —> 主要⽤于解决⽋拟合问题
任务⼆：如何提升泛化性能 —> 主要⽤于解决过拟合问题

3 集成学习中Boosting 和 Bagging

只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的

4 Bagging 和随机森林

4.1 Bagging 集成原理

目标：把下面的圈和方块进行分类

实现过程：
1) 采样不同数据集

2）训练分类器

3)平权投票，获取最终结果

4)主要实现过程⼩结

4.2 随机森林构造过程

在机器学习中， 随机森林是⼀个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数⽽定。随机森林 = Bagging + 决策树

例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个树的结果是False, 那么最终投票结果就是True
随机森林够造过程中的关键步骤(M表示特征数⽬)：
1)⼀次随机选出⼀个样本，有放回的抽样，重复N次(有可能出现重复的样本)
2) 随机去选出m个特征, m <<M，建⽴决策树

思考

1.为什么要随机抽样训练集？

如果

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。