学习笔记之高斯混合模型(GMM)梳理

本文详细介绍了高斯混合模型(GMM)的概念,包括先验概率、极大似然估计、后验概率和条件概率。GMM是一种混合模型,由多个高斯分布组成,常用于数据聚类。通过EM(期望最大化)算法进行参数估计,通过E步计算后验概率,M步更新参数,不断迭代直至收敛。文章还涉及Jensen不等式在优化过程中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、概念解释:

先验概率:在有一定量数据的前提下,我们对参数进行概率估计,事件发生前的预判概率。

极大似然估计:找到一组参数使得我们观测到的数据出现的概率最大。

后验概率:在最合适的那个参数的前提下,观测数据出现的最大概率。

条件概率:P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(A)P(B|A)}{P(B)}

高斯分布:x\sim N(\mu ,\sigma ^{2}),概率密度函数f(x)=\frac{1}{\sigma \sqrt{2\pi }}e^{\frac{-(x-\mu )^{2}}{2\sigma ^{2}}}

高斯混合模型(GMM):高斯混合模型是一种混合模型,混合的基本分布是高斯分布,假设有随机变量x,则高斯混合模型可以表示为:p(x)=\sum_{k=1}^{k=K}\pi _{k}N(x|\mu _{k},\sigma _{_{k}}),其中高斯分布N(x|\mu _{k},\sigma _{_{k}})称为高斯混合模型的第k个分量(component),\pi _{k}相当于每个分量N(x|\mu _{k},\sigma _{_{k}})的权重且满足\sum_{k=1}^{k=K}\pi _{k}=1

密度估计:根据数据来推断概率密度通常被称作密度估计(density estimation)。

参数估计:已知概率密度函数的形式,而要估计其中的参数的过程。

二、GMM理论

  GMM常用于聚类,如果要从一个GMM的分布中随机取一个点的话,实际上可以分为两步:

       1. 随机在K个分量中选一个,每个分量实际被选到的概率就是它的权重,即\pi _{k}

       2. 选中分量之后,单独再这个分两种考虑所选点的概率,此时转化为普通的高斯分布问题。

当确定高斯混合分布的分量个数即K时,之后要做的就是参数估计的过程。假设有N个数据点,我们需要确定的参数有\pi _{k}\mu _{k}\sigma_{k},最终目标是使确定的参数可以使生成这些数据点的概率值最大,而这个概率值实际上就是

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值