本文档记录了《机器学习》第 10 章降维与度量学习相关内容
k-近邻学习
给定测试样本,基于某种距离度量找出训练集中与其最靠近的 k 个训练样本,然后基于这 k 个“邻居”的信息来进行预测。
- 分类:投票法
- 回归:平均法
两个重要量
- k 的取值
- 距离度量公式
错误率
设测试样本 x,对应的最近邻样本
P(err)=1−∑c∈P(c|x)P(c|z)
P(err)≃1−∑c∈P2(c|x)
P(err)≤1−P2(c∗|x)
P(err)=(1+P(c∗|x))(1−P(c∗|x))
P(err)≤2×(1−P(c∗|x))
懒惰学习
在训练阶段仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理。
急切学习:在训练阶段就对样本进行学习处理。
低维嵌入
为什么要进行低维嵌入
密采样假设:任意测试样本 x 附近任意小距离
当属性维度数量非常高时,若要满足密采样假设需要非常多的样本,需要缓解维度灾难。
为什么能够进行降维
在很多时候,人们观测或收集到数据样本虽然是高维的,但与学习任务密切相关的也许仅是某个低位分布,即高维空间的一个低维“嵌入”。
多维缩放(Multiple Dimensional Scaling,简称 MDS)
- 约束条件:原始空间之间的距离在低维空间保持,即∥zi−zj∥=distij。
- 主要变量:
- 原始维度:d
- 距离矩阵
D∈ℝm×m - 低维空间维度:d′≤d
- 低维空间表示:Z∈ℝd′×m,为降维后中心化的样本表示
- 降维后样本的内积矩阵:B=Z⊤Z∈ℝm×m
- 特征值构成的对角矩阵:Λ=diag(λ1,λ2,...,λd),来自特征值分解 B=VΛV⊤,特征值 λi 按照从大到小的顺序排列
- 非零特征向量矩阵:V∗∈ℝd∗×m,d∗ 为非零特征值的个数 →Z=Λ1/2∗V⊤∗∈ℝd∗×m
- d′ 个最大特征值构成的矩阵:V̂ ∈ℝd′×m →Z=