本文档记录了《机器学习》第 11 章特征选择与稀疏学习相关内容
子集搜索与评价
为什么要进行特征选择
- 属性过多会导致维数灾难,与降维的动机类似
- 去除不相关特征常常可以降低学习任务的难度
特征分类
- 相关特征
- 无关特征
- 冗余特征
特征选择的过程
特征过少->数据重叠,无法区分。
特征过多->同类样本变远、变稀疏了,不易区分。
与决策树比较相似,实际上决策树也可以用作特征选择。
子集搜索
- 前向搜索:特征子集的特征数从少到多进行扩充
- 后向搜索:从完整特征集开始,每次尝试去掉某个特征
- 双向搜索:每一轮逐渐增加选定特征,它们在后续轮中将不会被去除(前向),并且减少无关特征(后向)
子集评价
- D :数据集
-
pi :数据集中第 i 类样本所占的比例 -
A :属性子集,可根据其取值将数据集划分为 V 个子集{D1,D2,...,DV} 信息熵:
Ent(D)=−∑k=1||pklog2pk属性子集 A 的信息增益:
Gain(A)=Ent(D)−∑v=1V|Dv||D|Ent(Dv) 信息增益越小,说明属性子集 A 的代表性越好。
过滤式(Filter)特征选择
先对数据集进行特征选择,再训练学习器,且特征选择与后续学习器无关,即学习器的性能即为对特征子集的评价。
- 特点:训练快速
Relief
- 主要思想:设计一个向量(“相关统计量”)来度量特征的重要性,每个分量对应一个初始特征,特征子集的重要性由子集中每个特征对应的分量之和决定。
- 通过设定阈值
τ 来过滤
相关分量,只保留满足阈值的分量对应的特征。 - 设定希望保留的特征个数 k 来
过滤
。
- 通过设定阈值
确定相关统计分量
- 猜中近邻
xi,nh : xi 同类中最相近的样本 - 猜错近邻 xi,nm : xi 异类中最相近的样本
属性 j 的分量:
δj 越大,属性 j 的分类能力越强δj=∑i−diff(xji,xji,nh)2+diff(xji,xji,nm)2
Relief-F
二分类 Relief 在多分类任务上的变形
δj=∑- 猜中近邻