多类不平衡数据预处理与指关节图像身份验证方法
1. 多类不平衡数据预处理算法 SPIDER3
1.1 多类不平衡分类问题挑战
多类不平衡分类问题是一个重大挑战,传统方法在处理这类问题时存在局限性。例如,在一些数据集中,不同类别的样本数量差异巨大,这会导致分类器在训练过程中偏向多数类,而忽略少数类,从而影响整体的分类性能。
1.2 SPIDER3 算法介绍
SPIDER3 是一种用于多类数据集预处理的算法,它可以处理多个类别,本文主要聚焦于少数类、中间类和多数类这三个类别。该算法根据类别的全局相关性对类进行处理,从最不相关的类开始,并利用类对之间的局部关系信息(以误分类成本的形式体现)来更好地控制引入的修改。
1.3 实验评估
SPIDER3 在人工数据的计算实验中进行了评估,并与它的前身 SPIDER2 进行了比较。SPIDER2 仅限于处理二元问题,并且需要对类进行临时聚合。实验结果表明,SPIDER3 在少数类上表现更好,与 k - NN 分类器结合使用时,在中间类上也有更好的表现。而且,它在所有决策类上的性能更加均衡,其真正率的几何平均值也更高。
1.4 性能分析
- 不同方法性能对比 :在处理困难数据集时,SP3 - costs 通常表现最佳,SP3 - default 通常是第二好的。这一方面证明了误分类成本信息对性能有益,另一方面也表明即使没有这些信息,SPIDER3 也能合理地工作。
- PART - U 性能情况 :PART - U 的性能没有明