PCA主成分分析

本文深入浅出地介绍了PCA主成分分析的基本概念及其在数据降维中的应用。通过数学角度解析了PCA如何通过变换坐标系来寻找数据的最大方差方向,并在此基础上实现对原始数据的有效简化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

PCA主成分分析

PCA(Principal Component Analysis,主成分分析):
把数据从原来的坐标系转换到新的坐标系,新坐标系的选择由数据本身决定。

如 PCA 主成分分析的 应用领域包括:股票交易市场数据的探索性分析、生物信息学领域的基因组和基因表达水平数据分析等。PCA 可以帮助我们识别出基于特征之间的关系识别出数据内在的模式。

从 数学层面理解,PCA 的目标就是在高维数据中找到最大方差的方向,并将数据映射到一个维度不大于原始数据的新的子空间上。

如下图以 x1 和 x2 为原始特征建立坐标轴,而 PC1 和 PC2 是两个正交方向的新特征坐标,以新特征坐标是相互正交的为约束条件,新的子空间上正交的坐标轴(主成分)可被解释为方差最大方向。

这里写图片描述

第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选择和第一个坐标轴正交且具有方差次大的方向。此过程一直重复,重复次数为原始数据中特征的数目。大部分方差都集中在最前面的几个新坐标轴中。因此,可以忽略余下的坐标轴,即对数据进行了降维处理。

PCA 优缺点:

  • 优点:降低数据的复杂性, 识别最重要的多个特征
  • 缺点:不一定需要, 且可能损失有用信息

1、内积与投影

这里写图片描述
这里写图片描述

2、基向量

这里写图片描述
这里写图片描述

3、求向量在新基下的坐标

这里写图片描述
这里写图片描述

4、投影的矩阵表示

这里写图片描述
这里写图片描述

5、 如何选择 r 个基向量?

这里写图片描述

6、分散程度度量:方差

数据分布越分散,信息量越大,降维处理中为了减少信息损失,投影要尽量去均值分散。这种分散程度,用方差度量。方差是用来描述一维数据的。
这里写图片描述
二维降成一维,就是找使得方差最大的那个方向。

7、协方差

这里写图片描述

8、协方差矩阵

这里写图片描述
这里写图片描述

9、基变换后的数据Y

这里写图片描述

10、优化目标:协方差矩阵对角化

(1)假设 D 是新空间下的 Y 的协方差矩阵:
这里写图片描述
这里写图片描述
这里写图片描述

11、降维结果:低维空间投影

这里写图片描述

12、PCA思想

这里写图片描述

13、PCA算法流程

这里写图片描述
这里写图片描述

14、PCA实例

这里写图片描述
这里写图片描述
这里写图片描述

喜欢就点赞评论+关注吧

这里写图片描述

感谢阅读,希望能帮助到大家,谢谢大家的支持!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值