主成分分析(PCA)
Principal Component Analysis
PCA与LDA不同,PCA是个无监督问题,拿到数据后不知道标签是什么,我们也能用PCA降维
用途:降维中最常用的一种手段
目标:提取最有价值的信息(基于方差)
问题:降维后的数据的意义
向量的表示以及基变换
内积:(a1,a2,…,an)T.(b1,b2,…,bn)T = a1b1+a2b2+…+anbn
解释:A·B = |A||B|cos@
设向量B的模为1,则A与B的内积值等于A向B所在直线投影的矢量长度
向量可以表示为(3,2)
实际上表示线性组合:x(1,0)T + y(0,1)T
基:(1,0)和(0,1)叫做二维空间中的一组基
基变换
基是正交的(即内积为0,或直观说互相垂直)
要求(线性无关)
变换:数据与第一个基做内积运算,结果作为第一个新的坐标分量,然后与第二个基做内积运算,结果作为第二个新坐标的分量
数据(3,2)映射到基中坐标:两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去
协方差矩阵
方向:如何选择这个方向(或者说基)才能尽量保留最多的原始信息呢?
一种直观看法是:希望投影后的投影值尽可能分散
寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大
协方差(假设均值为0时):假设均值为0的意思是做数据预处理,一行数据减去这一行数据的平均值,得到的值就在0上下浮动
协方差
如果单纯只选择方差最大的方向,后续方向应该会和方差最大的方向接近重合
解决方案:为了让两个字段尽可能表达更多的原始信息,我们是不希望它们之间存在(线性)相关的
线性无关:内积为0
协方差:可以用两个字段的协方差表示其相关性
当协方差为0时,表示两个字段完全独立