[机器学习]特征选择与稀疏学习

本文档记录了《机器学习》第 11 章特征选择与稀疏学习相关内容

子集搜索与评价

为什么要进行特征选择

  • 属性过多会导致维数灾难,与降维的动机类似
  • 去除不相关特征常常可以降低学习任务的难度

特征分类

  • 相关特征
  • 无关特征
  • 冗余特征

特征选择的过程

特征过少->数据重叠,无法区分。

特征过多->同类样本变远、变稀疏了,不易区分。

与决策树比较相似,实际上决策树也可以用作特征选择。

子集搜索

  • 前向搜索:特征子集的特征数从少到多进行扩充
  • 后向搜索:从完整特征集开始,每次尝试去掉某个特征
  • 双向搜索:每一轮逐渐增加选定特征,它们在后续轮中将不会被去除(前向),并且减少无关特征(后向)

子集评价

  • D :数据集
  • pi :数据集中第 i 类样本所占的比例
  • A :属性子集,可根据其取值将数据集划分为 V 个子集 {D1,D2,...,DV}
  • 信息熵:

    Ent(D)=k=1||pklog2pk

  • 属性子集 A 的信息增益:

    Gain(A)=Ent(D)v=1V|Dv||D|Ent(Dv)

    信息增益越小,说明属性子集 A 的代表性越好。

过滤式(Filter)特征选择

先对数据集进行特征选择,再训练学习器,且特征选择与后续学习器无关,即学习器的性能即为对特征子集的评价。

  • 特点:训练快速

Relief

  • 主要思想:设计一个向量(“相关统计量”)来度量特征的重要性,每个分量对应一个初始特征,特征子集的重要性由子集中每个特征对应的分量之和决定。
    • 通过设定阈值 τ 过滤相关分量,只保留满足阈值的分量对应的特征。

    • 设定希望保留的特征个数 k 过滤
  • 确定相关统计分量

    • 猜中近邻 xi,nh xi 同类中最相近的样本
    • 猜错近邻 xi,nm xi 异类中最相近的样本
    • 属性 j 的分量: δj 越大,属性 j 的分类能力越强

      δj=idiff(xji,xji,nh)2+diff(xji,xji,nm)2

    Relief-F

    二分类 Relief 在多分类任务上的变形

    δj=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值