Paper摘记:Bagging and Boosting for the Nearest Mean Classifier:

本文探讨了Bagging和Boosting在近邻均值分类器中的应用,介绍了这两种方法如何通过多样性和准确性的影响提高分类效果。讨论了Bootstrapping、Bagging及Boosting的工作原理,并对比了它们之间的差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

全名:Bagging and Boosting for the Nearest Mean Classifier:Effects of Sample Size on Diversity and Accuracy

作者:Marina Skurichina, Liudmila I. Kuncheva and Robert P.W. Duin

摘记:

理论上,组合独立的分类器,会得到比单一分类器更好的结果;组合相互依赖的分类器,得到的结果比起单一分类器,可好可坏。

Bootstrapping基于随机取样,每个分类器基于不同的样本,然后再组合分类器(不同分类器的样本能重合吗?)。

bagging机制:基于Bootstrapping,但是根据每个分类器的误差,会给每个分类器赋一个权值,最后的组合,是这些分类器的加权组合。

Boosting机制:分类器和训练数据集得到方式是被严格确定下来的。不像bagging中是随机的。在boosting的每一步中,训练数据被赋予权值,且当该数据被分类错误时,权值增大。类似SVC,增大了Margin。不同在于这边是局部的增大,而SVM是全局增大Margin。Adaboost,用重新定义训练数据权值,来代替重采样。

“arcfs”algorithm(Breiman提出):改进的Adaboost,根据分类误差,改变权值(注意:若误差过大,说明可能是噪声数据,所以忽略)

还没搞清楚的是,每个训练数据一个权值,还是每类训练数据一个权值。(貌似是每个)

分类器差别的度量:两个分类器:Ci 和 Cj

Q 统计量Qij=(ad – bc)/(ad + bc)

a Ci 和Cj 都正确概率,
b Ci 正确, Cj 错误概率
c Ci 错误, Cj 正确概率
d Ci 和Cj 都错误概率

值域为-1到1,越接近0越好

另一个度量:disagreement measure

Dij = b+c, 越大越好

 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值