一、先验分布与后验分布
-
先验分布:将一个未知量θ\thetaθ(这个θ\thetaθ并不是样本x)看做随机变量,应用一个概率分布在抽样前描述关于θ\thetaθ的先验信息的概率陈述,即先验分布
-
总体信息:样本x所属的数据空间X的分布情况
-
样本信息:样本x自身的分布情况,一般用P(x∣θ)=∏i=0nP(xi∣θ)P(x|\theta)=\prod_{i=0}^nP(x_i|\theta)P(x∣θ)=∏i=0nP(xi∣θ)表示
-
后验分布:根据先验分布和样本信息通过贝叶斯公式得到的针对未知量θ\thetaθ的再次估计得到的概率分布
-
贝叶斯公式:有三种形式:
-
事件形式:假定A1,...,AkA_1,...,A_kA1,...,Ak是互不相容的事件,他们的和⋃i=1kAi\bigcup_{i=1}^{k}A_i⋃i=1kAi包含事件B,则有:
P(Ai/B)=P(Ai)P(B/Ai)∑i=1kP(Ai)P(B/Ai)P(A_i/B)=\frac{P(A_i)P(B/A_i)}{\sum_{i=1}^{k}P(A_i)P(B/A_i)}P(Ai/B)=∑i=1kP(Ai)P(B/Ai)P(Ai)P(B/Ai)
-
密度函数:随机变量X有一个密度函数P(x|θ\thetaθ),θ\thetaθ是一个参数,不同θ\thetaθ表示不同的密度函数,因此P(x|θ\thetaθ)可以看做给定θ\thetaθ后的一个条件密度函数,这就可以看做总体的分布。
-
θ\thetaθ的先验分布为π(θ)\pi(\theta)π(θ),同理,后验分布可以表示为π(θ∣x)\pi(\theta|x)π(θ∣x)其中x是我们抽样后得到的样本
-
可以把样本x和参数的先验分布联合得到联合密度函数:
h(x1,...,xn,θ)=p(x1,...,xn∣θ)π(θ)h(x_1,...,x_n,\theta)=p(x_1,...,x_n|\theta)\pi(\theta)h(x1,...,xn,θ)=p(x1,...,xn∣θ)π(θ)
-
在联合密度函数中,当样本x1,...,xnx_1,...,x_nx1,...,xn给定之后,未知的参数就只有θ\thetaθ了,就可以通过样本和先验分布去估计θ\thetaθ的后验分布,只要去掉样本x1,...,xnx_1,...,x_nx1,...,xn的分布就可以了,相当于在这里,事件B就是样本x1,...,xnx_1,...,x_nx1,...,xn的分布,通过积分求得全概率,事件A是θ\thetaθ的分布
π(θ∣x1,...,xn)=h(x1,...,xn,θ)m(x1,...,xn)=p(x1,...,xn∣θ)π(θ)∫θp(x1,...,xn∣θ)π(θ)dθ\pi(\theta|x_1,...,x_n)=\frac{h(x_1,...,x_n,\theta)}{m(x_1,...,x_n)}=\frac{p(x_1,...,x_n|\theta)\pi(\theta)}{\int_{\theta}{p(x_1,...,x_n|\theta)\pi(\theta)}d\theta}π(θ∣x1,...,xn)=m(x1,...,xn)h(x1,...,xn,θ)=∫θp(x1,...,xn∣θ)π(θ)dθp(x1,...,xn∣θ)π(θ)
-
其中,m(x1,...,xn)m(x_1,...,x_n)m(x1,...,xn)是样本x的边缘分布,或者说全概率
-
-
离散形式:当θ\thetaθ是离散随机变量的时候,先验分布是π(θi)\pi(\theta_i)π(θi),后验分布是
π(θi∣x)=p(x∣θi)π(θi)∑jp(x∣θj)π(θj),i=1,2,...\pi(\theta_i|x)=\frac{p(x|\theta_i)\pi(\theta_i)}{\sum_j{p(x|\theta_j)\pi(\theta_j)}},i=1,2,...π(θi∣x)=∑jp(x∣θj)π(θj)p(x∣θi)π(θi),i=1,2,...
-
-
共轭先验分布:未知量θ\thetaθ的先验分布π(θ)\pi(\theta)π(θ)和后验分布π(θ∣x)\pi(\theta|x)π(θ∣x)有着相同的分布函数形式,只是参数不同,则π(θ)\pi(\theta)π(θ)是变量θ\thetaθ的共轭先验分布
总体分布 参数 共轭先验分布 正态分布N(θ,σ2)N(\theta,\sigma^2)N(θ,σ2) 均值θ\thetaθ 正态分布N(μ,γ2)−N(x‾σ−2n+μγ−2σ−2n+γ−2,σ2nγ2σ2n+γ2)N(\mu,\gamma^2)-N(\frac{\overline{x}\frac{\sigma^{-2}}{n}+\mu\gamma^{-2}}{\frac{\sigma^{-2}}{n}+\gamma^{-2}},\frac{\frac{\sigma^2}{n}\gamma^2}{\frac{\sigma^2}{n}+\gamma^2})N(μ,γ2)−N(nσ−2+γ−2xnσ−2+μγ−2,nσ2+γ2