PCA降维

最新推荐文章于 2025-06-11 20:52:12 发布

原创

最新推荐文章于 2025-06-11 20:52:12 发布 · 748 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

PCA（主成分分析）是一种无监督的降维方法，用于提取数据中最有价值的信息。其目标是最大化方差并保持数据的分散性。PCA通过基变换实现，选择使数据方差最大的方向作为新坐标轴。协方差矩阵在PCA中起到关键作用，寻找协方差为0的方向以确保特征的线性无关。优化目标是找到K个单位正交基，使得降维后的数据字段两两协方差为0，方差最大化。通过对协方差矩阵进行对角化，可以得到所需的主要特征向量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主成分分析(PCA)
Principal Component Analysis

PCA与LDA不同，PCA是个无监督问题，拿到数据后不知道标签是什么，我们也能用PCA降维

用途：降维中最常用的一种手段
目标：提取最有价值的信息（基于方差）
问题：降维后的数据的意义

向量的表示以及基变换

内积：(a1,a2,…,an)T.(b1,b2,…,bn)T = a1b1+a2b2+…+anbn
解释:A·B = |A||B|cos@
设向量B的模为1，则A与B的内积值等于A向B所在直线投影的矢量长度

向量可以表示为(3,2)
实际上表示线性组合:x(1,0)T + y(0,1)T

基:(1,0)和(0,1)叫做二维空间中的一组基

基变换

基是正交的（即内积为0，或直观说互相垂直）
要求（线性无关）
变换：数据与第一个基做内积运算，结果作为第一个新的坐标分量，然后与第二个基做内积运算，结果作为第二个新坐标的分量

数据（3，2）映射到基中坐标：两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去

协方差矩阵

方向：如何选择这个方向（或者说基）才能尽量保留最多的原始信息呢？
一种直观看法是：希望投影后的投影值尽可能分散

寻找一个一维基，使得所有数据变换为这个基上的坐标表示后，方差值最大
协方差（假设均值为0时）：假设均值为0的意思是做数据预处理，一行数据减去这一行数据的平均值，得到的值就在0上下浮动

协方差

如果单纯只选择方差最大的方向，后续方向应该会和方差最大的方向接近重合
解决方案：为了让两个字段尽可能表达更多的原始信息，我们是不希望它们之间存在（线性）相关的
线性无关：内积为0
协方差：可以用两个字段的协方差表示其相关性
当协方差为0时，表示两个字段完全独立

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。