分类——LDA、QDA

最新推荐文章于 2025-04-02 14:37:45 发布

原创最新推荐文章于 2025-04-02 14:37:45 发布 · 9.2k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#分类-LDA

机器学习专栏收录该内容

7 篇文章

订阅专栏

本文介绍了LDA（线性判别分析）和QDA（二次判别分析）这两种分类方法。LDA假设特征服从同一高斯分布，而QDA允许每个类拥有独立的协方差矩阵。LDA适用于数据量较小的情况，QDA在数据量充足时能提供更好的分类效果，但需要估计更多参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LDA（Linear Discriminant Analysis）

模型：
$P r (Y = k | X = x) = π k f k ( x ) \sum k l = 1 π l f l ( x )$ $Pr(Y=k|X=x)=\frac {\pi_k f_k(x)} {\sum_{l=1}^k \pi_l f_l(x)}$
假设：第k类的观测值来自于多元高斯分布 $\mathcal {N}(\mu_k,\Sigma )$
即：
$f k (x) = P r (X = x | Y = y)$ $f_k(x)=Pr(X=x|Y=y)$
$f (x) = 1 ( 2 π ) P / 2 | Σ | 1 / 2 e x p [- 1 2 (x - μ) - 1 Σ - 1 (x - μ)]$ $f(x)=\frac {1} {(2\pi)^{P/2} |\Sigma|^{1/2} } exp[-\frac {1} {2} (x -\mu)^{-1} \Sigma^{-1}(x-\mu)]$

2 . P表示特征的数量、 $\Sigma$ 表示协方差矩阵
当P = 1 时： $f(x)$ 假设为一维高斯分布， $\Sigma$ 用方差 $\sigma^2$ 表示,则

f (x) = 1 ( 2 π ) 1 / 2 σ e x p [- 1 2 σ 2 (x - μ) 2]

$f(x)=\frac {1} {(2\pi)^{1/2} \sigma } exp[-\frac {1} {2 \sigma^2} (x -\mu)^2]$

问题：在实际中， $f_k(x)$ 是未知的，需要通过训练集预测，LDA(P=1)假设了 $f_k(x)$ 来自于一维高斯分布

再假设： $\sigma_1^2 = \sigma_2^2 = ... = \sigma_k^2=\sigma^2$ ,

将 $f_k(x)$ 代入模型，获得取某个特定x值时，记录术语第k类的概率
即：

P k (x) = P r (Y = k | X = x) = π k 1 ( 2 π ) 1 / 2 σ e x p [ - 1 2 σ 2 ( x - μ k ) 2 ] \sum k l = 1 π l f l ( x )

$P_k(x)=Pr(Y=k|X=x)=\frac {\pi_k\frac {1} {(2\pi)^{1/2} \sigma } exp[-\frac {1} {2 \sigma^2} (x -\mu_k)^2]} {\sum_{l=1}^k \pi_l f_l(x)}$

$P_k(x)$ 最大表示取x值的记录最有可能术语类别k

取对数且化简：

δ k (x) = x * μ k σ 2 - μ 2 k 2 σ 2 + l o g (π k)

$\delta_k(x) = x * \frac {\mu_k} {\sigma^2} - \frac {\mu_k^2} {2\sigma^2} + log(\pi_k)$

参数估计
实际的 $P_k(x)$ 分布并不可知，因此需要估计 $\mu_1..\mu_k;\pi_1...\pi_k;\sigma^2$
LDA采用了plugging estimates方法进行参数估计：

$\hat {\mu_k} = \frac {1} {n_k}\sum_{i : y_i=k}{x_i}$

$\hat {\pi_k}= \frac {n_k} {n}$

$\hat {\sigma^2} = \frac {1} {n-k}\sum_{k=1}^K\sum_{i : y_i=k}({x_i-\hat\mu_k}^2)$

3.P>1
同理得：

δ k (x) = x T Σ - 1 μ k - 1 2 μ T k Σ - 1 μ k + l o g (π k)

$\delta_k(x)=x^T\Sigma^{-1}\mu_k - \frac{1}{2}\mu_k^T\Sigma^{-1}\mu_k +log(\pi_k)$

参数估计的方法同上，需要估计协方差矩阵 $\Sigma$

4.评价：confusion matrix

QDA（Quadratic Discriminat Analysis）

与LDA**相同**，QDA也假设了每个类的观测值都来自于高斯分布
与LDA**不同**，QDA假设每个类有它们自己的协方差矩阵，即 $\mathcal {N}(\mu_k,\Sigma_k )$
因此：

δ k (x) = - 1 2 (x - μ k) T Σ - 1 (x - μ k) - 1 2 log | Σ k | + l o g (π k)

$\delta_k(x)=-\frac{1}{2}(x-\mu_k)^T\Sigma^{-1}(x-\mu_k) - \frac{1}{2} \log|\Sigma_k|+log(\pi_k)$

原因：

1.variance-bias trade-off : 在现实情况中，真实的分布f不能得到，需要通过观测值组成训练集来估计。训练集可能不完全也可能来自于不同的观测值，因此variance反应了不同数据集预测得到的 $\hat \f$ 和 $\f$ 之间差距的变化度。bias反应了预测的误差。
2.QDA相比LDA需要估计更多的参数，当数据量足够大时，variance不再是主要的问题，选用QDA更好
3.当数据量较小时，LDA更常用。