1 什么是集成学习
集成学习通过建⽴⼏个模型来解决单⼀预测问题。 它的⼯作原理是⽣成多个分类器/模型, 各⾃独⽴地学习和作出预测。 这些预测最后结合成组合预测, 因此优于任何⼀个单分类的做出预测。
2 机器学习的两个核心任务
任务⼀: 如何优化训练数据 —> 主要⽤于解决⽋拟合问题
任务⼆: 如何提升泛化性能 —> 主要⽤于解决过拟合问题
3 集成学习中Boosting 和 Bagging

只要单分类器的表现不太差, 集成学习的结果总是要好于单分类器的
4 Bagging 和 随机森林
4.1 Bagging 集成原理
目标:把下面的圈和方块进行分类

实现过程:
1) 采样不同数据集
2)训练分类器

3)平权投票, 获取最终结果
4)主要实现过程⼩结
4.2 随机森林构造过程
在机器学习中, 随机森林是⼀个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数⽽定。随机森林 = Bagging + 决策树
例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个树的结果是False, 那么最终投票结果就是True
随机森林够造过程中的关键步骤(M表示特征数⽬):
1)⼀次随机选出⼀个样本, 有放回的抽样, 重复N次(有可能出现重复的样本)
2) 随机去选出m个特征, m <<M, 建⽴决策树
- 思考
1.为什么要随机抽样训练集?
- 如果

本文介绍了集成学习的基本概念,重点探讨了Boosting和Bagging两种方法。Bagging通过采样数据集训练多个分类器并进行平权投票,而随机森林是Bagging与决策树的结合。文章详细解释了随机森林的构建过程,包括有放回抽样和包外估计(Out-of-Bag Estimate)的概念,并讨论了随机森林的API。同时,文章还提供了随机森林预测案例的代码分析和完整代码。最后,对比了Bagging与Boosting在数据处理、投票方式、学习顺序和主要作用上的区别。

2413

被折叠的 条评论
为什么被折叠?



