【机器学习】集成学习

集成学习通过构建并结合多个学习器来提升性能

2ba451155ed8ebe9ef6965ed77696666.png
dca969824f87f62b75c5ab3927364c05.png
bba56d438f4ebe92f336f6d756046db3.png

在一定条件下,随着集成分类器数目的增加,集成的错误率将指数级下降,最终趋向于0。

分类

  • 个体学习器间存在强依赖关系、必须串行生成的序列化方法:Boosting

  • 个体学习器间不存在强依赖关系、可同时生成的并行化方法:Bagging, Random Forest


一、Boosting

个体学习器存在强依赖关系、串行生成、每次调整训练数据的样本分布

(1) 给定初始训练数据,由此训练出第一个基学习器,并确定其权重;

(2) 对样本分布进行调整,在之前学习器做错的样本上投入更多关注;

(3)用调整后的样本,训练下一个基学习器,确定其权重;

(4)重复上述过程 T 次,将 T 个学习器加权结合。

1.AdaBoost算法流程

3f3bf6e92567e72dbee34d604c4b3748.png

2.AdaBoost推导

35a67b59a233112a7c4760057f6da1b3.png

指数损失函数

52527acd80414e1c12173432246f7d81.png
4196d3905d5f272d35f22d2f16552f77.png

指数损失函数最小化,则分类错误率也将最小化,说明指数损失函数是0/1损失函数的一致的替代函数。

分类器的权重63baefec43ad545d13b26d44eb02c011.png

3d7f4d0305901efd285b1b3c931c5380.png
dc7ed3823fbdf9dd99fb6c2efac8bcd5.png

样本权重调整

4315c002d85fd739d09bf0b52f4e939a.png
a3a0d0290217c9846920d737a31df088.png
04ce53347bc0e8b8a769dc4b80da8705.png

理想的ht将在分布Dt下最小化分类误差,因此,弱分类器应该基于分布Dt来训练。

6132fe716fdb4cbeda021f9127e033f3.png

3.AdaBoost优缺点

优点:

(1)不容易发生过拟合;

(2)由于AdaBoost并没有限制弱学习器的种类,所以可以使用不同的学习算法来

构建弱分类器;

(3)相对于bagging算法和Random Forest算法,AdaBoost充分考虑的每个分

类器的权重;

(4)AdaBoost的参数少,实际应用中不需要调节太多的参数。

缺点:

(1)AdaBoost迭代次数(弱分类器数目)不好设定,可以使用交叉验证来确定;

(2)对异常样本敏感,异常样本在迭代中可能会获得较高的权重,影响最终的强学习器的预测准确性;

(3)原始的AdaBoost算法不适于处理多分类或回归任务;

(4)训练比较耗时。


二、Bagging

基本思想:

采样出 T 个含 m 个训练样本的采样集,基于每个采样集训练出一个基学习器(并行构建T个分类器、并行训练),最终将所有分类器的结果进行综合(平均或投票),达到最终的预测结果。

1.自助采样法

9afc605bb3a7fa88a19b6b135c84d97b.png

2. bagging算法特点

(1)时间复杂度低

假定基学习器的计算复杂度为O(m),采样与投票/平均过程的复杂度为O(s),则bagging的复杂度大致为T(O(m)+O(s))。由于O(s)很小且T是一个不大的常数, 因此训练一个bagging集成与直接使用基学习器的复杂度同阶

(2)直接适用于多分类、回归等任务

(3)可使用包外估计

由于基学习器只使用了初始训练集中约63.2%的样本,剩下的约36.8%的样本可用作验证集来对泛化性能进行“包外估计”(out-of-bag estimate)。

3.包外估计

07361f1cd6181063207977840c82d5e1.png
0055120df29cf171bd219b862ccc0906.jpeg
b727427f72c9d4be1233dc62c640ccef.png

上式表示估计错误的个数除以总的个数,得到泛化误差的保外估计


三、随机森林

a34a758eac1b986975a5b57234fd4aff.png

四、结合策略

1.平均法

465e0fef704313dcb558579575ed6eff.png
c7294fd349162f70f464bafb99a62ce1.png
  • 加权平均法未必一定优于简单平均法

训练样本不充分或含有噪声,导致学出的权重不完全可靠

  • 一般而言,个体学习器性能相差较大->加权平均;性能相近->简单平均法

2.投票法

25737cbf787a4ddae90a95fb0637b8b9.png

当一个类别j的基分类器的结果之和大于所有结果之和的1/2时,选择该类别j为最终结果。

4c1dc62fd39884566236de0896c5fd27.png

若类别j的及分类器的结果之和在所有类别中最大,则选类别j为最终结果

4136b563118a8edc93308410a5620128.png

3.学习法

初级学习器+次级学习器/元学习器


五、多样性

集成的泛化误差:

8284124e1e11e665c106d12ebf9479bd.png
  • 常见的增强个体学习器的多样性的方法

(1)数据样本扰动

(2)输入属性扰动

(3)输出表示扰动

(4)算法参数扰动

df5e6867008607f11cfd149122b1ba25.png

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值