不平衡学习中的降维技术
在不平衡学习中,高维数据是很常见的。高维数据的一个显著特点是变量数量远远超过样本数量,这给分类预测带来了额外的挑战。为了解决这些问题,数据降维(DR)成为了关键步骤,主要通过特征选择(FS)和特征提取两种方式实现。
降维的重要性
高维数据进行降维具有重要意义。一方面,当特征数量大于观测数量时,某些分类模型无法推导得出;另一方面,去除冗余或与其他特征有明显相关性的特征,能够提高预测的准确性。
在处理不平衡的高维数据时,如果直接使用分类器,可能会产生严重偏向多数类的分类结果。这种偏差的程度取决于分类方法、类别差异的大小和不平衡程度。使用标准的特征选择方法通常会进一步增加偏差,除非训练和测试组中的类别不平衡情况相同,否则应避免对属性进行标准化。此外,使用数据级采样技术构建平衡的训练数据集,是设计准确模型的不错选择。
高维数据对经典算法的影响
- SMOTE过采样 :在低维环境中,SMOTE能有效减少大多数分类器的类别平衡问题;但在高维数据中,它对大多数分类器的影响不大。当数据量较大时,如果先进行特征选择,SMOTE对k - NN分类器有益;而对于判别分析分类器,即使在低维配置下,SMOTE也没有好处。在高维环境中,某些分类器更适合使用欠采样。
- KNN算法 :KNN存在枢纽性(hubness)问题,在高维特征空间中更为严重,会影响分类规则的偏差。研究发现,在高维数据集中,少数类会导致多数类的误分类率升高,这与低维情况不同。
特征选择方法
特征选择是一种数据