PCA在经典降维方面的应用-CSDN博客

本文链接：https://blog.csdn.net/Shan1205/article/details/149118356

我们想找出指定的 K 个维度，使数据在这 K 个维度上损失最少 -> 散布最广。除了用方差衡量我们要取的坐标轴外，还应考虑数据在新维度上的散布不具有任何相关性，回到最开头的问题，在原始数据中，两个属性（学习时长和成绩）具有相关性，我们希望降维来去除这种相关性，这也是 PCA 的意义之一。

回顾上面的公式，协方差表示了向量间的相关性，协方差为 0，向量完全不相关，向量互相正交。

问题被转化成了，我们希望找出一组基向量（需要是标准正交基），数据在这组基向量构成的空间中表示时，任何两个属性间相关性为零。我们取出数据散布最广的前 K 个维度，就是我们希望求取的新坐标系（基向量），将原本的数据以新的基向量为参考系表示出来，就是数据压缩后的结果。

假设 A 是原始数据集，每一行代表一个文档，每一列代表指定单词在文档中出现的次数。

计算一下 A 的转置与 A 相乘。

AT⋅A=[230031104104][201133000144]=[Dog2Dog⋅CatDog⋅EatDog⋅ACat⋅DogCat2Cat⋅EatCat⋅AEat⋅DogEat⋅CatEat2Eat⋅AA⋅DogA⋅CatA⋅EatA2]

把矩阵的每一项除以 entity 的个数 m，你会发现，这是一个实对称矩阵，对角线上的值是其方差（红圈部分），其他值对应两个属性之间的协方差（以黄色下划线部分为例）。我们希望找出一个新的基向量所代表的空间 P（每列是一个基向量），原始的数据 A 在 P 的衡量下的新的表示方式为 Z，即 Z = AP，如果 (1/m)*Z(T)Z 能变成一个对角矩阵（除对角线外其余元素为 0），那么 P 就是我们想找的那组基向量。

今天的文章分享就到这里了，希望对大家的学习和工作有所帮助！