以上图为例,实验进行的总次数为 NNN,nijn_{ij}nij 表示在 xi,yjx_i,y_jxi,yj 条件下的频数,有:ci=∑jnijc_i=\sum_j n_{ij}ci=∑jnij,rj=∑inijr_j=\sum_i n_{ij}rj=∑inij,p(X=xi)=ciN\displaystyle p(X=x_i)=\frac{c_{i}}{N}p(X=xi)=Nci,p(Y=yj)=rjN\displaystyle p(Y=y_j)=\frac{r_{j}}{N}p(Y=yj)=Nrj;
联合概率:p(X=xi,Y=yj)=nijN\displaystyle p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}p(X=xi,Y=yj)=Nnij;
条件概率:p(Y=yj∣X=xi)=nijci\displaystyle p(Y=y_j|X=x_i)=\frac{n_{ij}}{c_i}p(Y=yj∣X=xi)=cinij;
计算法则
概率求和法则:p(X)=∑Yp(X,Y)\displaystyle p(X)=\sum_Y p(X,Y)p(X)=Y∑p(X,Y);
概率求积法则:p(X,Y)=p(Y∣X)p(X)\displaystyle p(X,Y)=p(Y|X)p(X)p(X,Y)=p(Y∣X)p(X)
贝叶斯理论:
p(Y∣X)=p(X∣Y)p(Y)p(X)\displaystyle p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}p(Y∣X)=p(X)p(X∣Y)p(Y),
其中 P(Y∣X)P(Y|X)P(Y∣X) 被称为后验概率,P(X∣Y)P(X|Y)P(X∣Y) 被称为似然函数(类概率密度),P(Y)P(Y)P(Y) 被称为先验概率,p(X)=∑Yp(X∣Y)p(Y)\displaystyle p(X)=\sum_Y p(X|Y)p(Y)p(X)=Y∑p(X∣Y)p(Y)可被视为正则项因子(为一常数);
概率密度:
一变量 xxx 落入区间 (x,x+δx)(x,x+\delta x)(x,x+δx) 的概率记为:p(x)⋅δxp(x)\cdot\delta xp(x)⋅δx,其中 δx→0\delta x\to 0δx→0,p(x)p(x)p(x) 记为概率密度;则 xxx 落入区间 (a,b)(a,b)(a,b) 的概率为:P(x∈(a,b))=∫abp(x)dx\displaystyle P(x\in(a,b))=\int^b_ap(x)dxP(x∈(a,b))=∫abp(x)dx,且有 p(x)≥0;∫−∞∞p(x)dx=1p(x)\ge0;\displaystyle \int^{\infty}_{-\infty}p(x)dx=1p(x)≥0;∫−∞∞p(x)dx=1
雅克比因子
在变量非线性变化的情况下,由于雅可比因子的存在,概率密度与简单函数的转换有所不同。例如,考虑一个变化的变量 x=g(y)x=g(y)x=g(y),则函数 f(x)f(x)f(x) 变为 f~(y)=f(g(y))\tilde f(y)=f(g(y))f~(y)=f(g(y)),现在考虑概率密度 px(x)p_x(x)px(x) 及与之对应的新的变量 yyy 的概率密度 py(y)p_y(y)py(y),他们是不同的。
对于足够小的 δx\delta xδx,当变量落入区间 (x,x+δx)(x,x+\delta x)(x,x+δx) 使,可被转换至 (y,y+δy)(y,y+\delta y)(y,y+δy),其中 px(x)⋅δx≈py(y)⋅δyp_x(x)\cdot\delta x\approx p_y(y)\cdot\delta ypx(x)⋅δx≈py(y)⋅δy,因此,可以得到:py(y)=px(x)⋅∣dxdy∣=px(g(y))⋅∣g′(y)∣\displaystyle p_y(y)=p_x(x)\cdot|\frac{dx}{dy}|=p_x(g(y))\cdot|g'(y)|py(y)=px(x)⋅∣dydx∣=px(g(y))⋅∣g′(y)∣
这一特性的结果就导致最大概率密度这一概念是依赖于变量的选择的。
期望和方差
期望
对连续函数,有期望 E[f]=∫p(x)f(x)dx\displaystyle\mathbb E[f]=\int p(x)f(x)dxE[f]=∫p(x)f(x)dx;
而对于离散值,则有 E[f]=∑xp(x)f(x)\displaystyle\mathbb E[f]=\sum_x p(x)f(x)E[f]=x∑p(x)f(x);
而条件期望有:Ex[f∣y]=∑xp(x∣y)f(x)\displaystyle\mathbb E_x[f|y]=\sum_x p(x|y)f(x)Ex[f∣y]=x∑p(x∣y)f(x);
方差
对变量 xxx 的方差,有 var[x]=E[(x−E[x])2]=E[x2]−E2[x]var[x]=\mathbb E[(x-\mathbb E[x])^2]=\mathbb E[x^2]-\mathbb E^2[x]var[x]=E[(x−E[x])2]=E[x2]−E2[x];
而对函数 f(x)f(x)f(x),其方差则为:var[x]=E[(f(x)−E[f(x)])2]=E[f2(x)]−E2[f(x)]var[x]=\mathbb E[(f(x)-\mathbb E[f(x)])^2]=\mathbb E[f^2(x)]-\mathbb E^2[f(x)]var[x]=E[(f(x)−E[f(x)])2]=E[f2(x)]−E2[f(x)];
对变量 x,yx,yx,y,他们的协方差是 cov[x,y]=Ex,y[(x−E[x])(y−E[y])]=Ex,y[xy]−E[x]⋅E[y]cov[x,y]=\mathbb E_{x,y}[(x-\mathbb E[x])(y-\mathbb E[y])]=\mathbb E_{x,y}[xy]-\mathbb E[x]\cdot\mathbb E[y]cov[x,y]=Ex,y[(x−E[x])(y−E[y])]=Ex,y[xy]−E[x]⋅E[y];
若对于向量 x,y\mathbf x,\mathbf yx,y,他们的协方差则为一矩阵:cov[x,y]=Ex,y[(x−E[x])(yT−E[yT])]=Ex,y[xyT]−E[x]⋅E[yT]cov[\mathbf x,\mathbf y]=\mathbb E_{\mathbf x,\mathbf y}[(\mathbf x-\mathbb E[\mathbf x])(\mathbf y^T-\mathbb E[\mathbf y^T])]=\mathbb E_{\mathbf x,\mathbf y}[\mathbf x\mathbf y^T]-\mathbb E[\mathbf x]\cdot\mathbb E[\mathbf y^T]cov[x,y]=Ex,y[(x−E[x])(yT−E[yT])]=Ex,y[xyT]−E[x]⋅E[yT]
典型分布
1.高斯分布
N(x∣μ,σ2)=1(2πσ2)1/2⋅exp{−12σ2⋅(x−μ)2}\displaystyle N(x|\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{1/2}}\cdot exp\{-\frac{1}{2\sigma^2}\cdot(x-\mu)^2\}N(x∣μ,σ2)=(2πσ2)1/21⋅exp{−2σ21⋅(x−μ)2}
高斯分布的性质有:
(1)∫−∞∞N(x∣μ,σ2)dx=1\displaystyle \int^{\infty}_{-\infty}N(x|\mu,\sigma^2)dx=1∫−∞∞N(x∣μ,σ2)dx=1
(2)E[x]=∫−∞∞N(x∣μ,σ2)xdx=μ\displaystyle \mathbb E[x]=\int^{\infty}_{-\infty}N(x|\mu,\sigma^2)xdx=\muE[x]=∫−∞∞N(x∣μ,σ2)xdx=μ
(3)E[x2]=∫−∞∞N(x∣μ,σ2)x2dx=μ2+σ2\displaystyle \mathbb E[x^2]=\int^{\infty}_{-\infty}N(x|\mu,\sigma^2)x^2dx=\mu^2+\sigma^2E[x2]=∫−∞∞N(x∣μ,σ2)x2dx=μ2+σ2
(4)var[x]=E[x2]−E2[x]=σ2var[x]=\mathbb E[x^2]-\mathbb E^2[x]=\sigma^2var[x]=E[x2]−E2[x]=σ2
2.多维高斯分布
N(x∣u,Σ)=1(2π)D/21∣Σ∣1/2⋅exp{−12(x−u)TΣ−1(x−u)}\displaystyle N(\mathbf x|\mathbf u,\Sigma)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}\cdot exp\{-\frac{1}{2}(\mathbf x-\mathbf u)^T\Sigma^{-1}(\mathbf x-\mathbf u)\}N(x∣u,Σ)=(2π)D/21∣Σ∣1/21⋅exp{−21(x−u)TΣ−1(x−u)}
上式为一 DDD 维正态分布,u\mathbf uu 是均值向量,Σ\SigmaΣ 为 D×DD\times DD×D 维的协方差矩阵。