[机器学习]特征选择与稀疏学习

本文档记录了《机器学习》第 11 章特征选择与稀疏学习相关内容

子集搜索与评价

特征过少->数据重叠，无法区分。

特征过多->同类样本变远、变稀疏了，不易区分。

与决策树比较相似，实际上决策树也可以用作特征选择。

$D$ ：数据集
$p_i$ ：数据集中第 $i$ 类样本所占的比例
$A$ ：属性子集，可根据其取值将数据集划分为 $V$ 个子集 $\{D^1,D^2,...,D^V\}$
信息熵：

$Ent (D) = - \sum k = 1 |  | p k log 2 p k$ $\text{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|}p_k\log_2p_k$
属性子集 $A$ 的信息增益：

$Gain (A) = Ent (D) - \sum v = 1 V | D v | | D | Ent (D v)$ $\text{Gain}(A)=\text{Ent}(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}\text{Ent}(D^v)$

信息增益越小，说明属性子集 $A$ 的代表性越好。

先对数据集进行特征选择，再训练学习器，且特征选择与后续学习器无关，即学习器的性能即为对特征子集的评价。

主要思想：设计一个向量（“相关统计量”）来度量特征的重要性，每个分量对应一个初始特征，特征子集的重要性由子集中每个特征对应的分量之和决定。
- 通过设定阈值 $\tau$ 来过滤相关分量，只保留满足阈值的分量对应的特征。
- 设定希望保留的特征个数 $k$ 来过滤。
确定相关统计分量
- 猜中近邻 $x_{i,nh}$ ： $x_i$ 同类中最相近的样本
- 猜错近邻 $x_{i,nm}$ ： $x_i$ 异类中最相近的样本
- 属性 $j$ 的分量： $\delta^j$ 越大，属性 $j$ 的分类能力越强
  
  $δ j = \sum i - diff (x j i, x j i, n h) 2 + diff (x j i, x j i, n m) 2$ $\delta^j=\sum_i -\text{diff}(x_i^j,x_{i,nh}^j)^2+\text{diff}(x_i^j,x_{i,nm}^j)^2$
Relief-F

二分类 Relief 在多分类任务上的变形

δj=∑