【机器学习-基础知识】统计和贝叶斯推断

1. 概率论基本概念回顾

1. 概率分布

定义: 概率分布(Probability Distribution)指的是随机变量所有可能取值及其对应概率的集合。它描述了一个随机变量可能取的所有值以及每个值被取到的概率。

  • 对于离散型随机变量,使用概率质量函数来描述。
  • 对于连续型随机变量,使用概率密度函数来描述。

举例说明: 投掷一颗六面骰子,每个面上的数字(1到6)都有相同的概率(1/6)出现,这就是一个简单的概率分布例子。

2. 概率函数

定义: 概率函数(Probability Function)是指在离散型随机变量的情况下,给定一个随机变量的值时,计算该值发生的概率的函数。

公式: 对于离散型随机变量 X X X,其概率函数通常表示为 P ( X = x ) P(X=x) P(X=x),即随机变量 X X X 取某个特定值 x x x 的概率。

举例说明: 抛一枚公平的硬币,令 X X X 表示出现正面的情况,则 P ( X = 正面 ) = 0.5 P(X=\text{正面})=0.5 P(X=正面)=0.5

3. 概率分布函数(累积分布函数)

定义: 概率分布函数(Cumulative Distribution Function, CDF),也称作累积分布函数,是一个函数,它给出随机变量小于或等于某个值的概率。

公式: 对于任意实数 a a a,CDF F ( a ) = P ( X ≤ a ) F(a) = P(X \leq a) F(a)=P(Xa)

举例说明: X X X 为一个均匀分布在 [ 0 , 1 ] [0,1] [0,1] 区间上的随机变量,则 F ( x ) F(x) F(x) 对于 0 ≤ x ≤ 1 0 \leq x \leq 1 0x1 x x x,即 F ( x ) = x F(x) = x F(x)=x

在这里插入图片描述

4. 概率密度函数

定义: 概率密度函数(Probability Density Function, PDF)适用于连续型随机变量,用来描述连续型随机变量落在某个确定值附近的概率密度大小。

公式: 对于连续型随机变量 X X X,其PDF记为 f ( x ) f(x) f(x),满足条件:
∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty} f(x)dx = 1 f(x)dx=1
并且对于任意两个实数 a a a b b b ( a < b a < b a<b),随机变量 X X X 落在区间 [ a , b ] [a, b] [a,b] 内的概率由下面积分给出:
P ( a < X ≤ b ) = ∫ a b f ( x ) d x P(a < X \leq b) = \int_{a}^{b} f(x) dx P(a<Xb)=abf(x)dx

2. 统计和贝叶斯

贝叶斯公式

定义: 贝叶斯公式(Bayes’ Theorem)是一种计算条件概率的方法,它允许我们通过已知的某些条件下的事件发生的概率来更新对另一些条件下该事件发生概率的估计。

公式:
P ( A ∣ B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ) P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)
其中,

  • P ( A ∣ B ) P(A|B) P(AB) 是在事件 B 发生的情况下事件 A 发生的概率,称为后验概率
  • P ( B ∣ A ) P(B|A) P(BA) 是在事件 A 发生的情况下事件 B 发生的概率,称为后验概率
  • P ( A ) P(A) P(A) P ( B ) P(B) P(B) 分别是事件 A 和事件 B 的边际概率(无条件概率) P ( A ) P(A) P(A) 也被称为先验概率

全概率公式

定义: 全概率公式(Law of Total Probability)提供了一种方法,用于计算一个复杂事件的概率,特别是当这个事件可以被分解为几个互斥但又完全覆盖样本空间的子事件时。

公式:
如果 B 1 , B 2 , . . . , B n B_1, B_2, ..., B_n B1,B2,...,Bn 是一组互斥且穷尽的事件(即它们之间没有交集,但并集覆盖了整个样本空间),则对于任意事件 A,有
P ( A ) = ∑ i = 1 n P ( A ∣ B i ) ⋅ P ( B i ) P(A) = \sum_{i=1}^{n} P(A|B_i) \cdot P(B_i) P(A)=i=1nP(ABi)P(Bi)

举例说明: 假设你想要计算某一天下雨的概率。你可以将天气状况分为几种不同的情况(如晴天、阴天、多云等),然后分别计算在每种情况下下雨的概率,最后加权平均这些概率以得到最终的下雨概率。例如:
P ( 下雨 ) = P ( 下雨 ∣ 晴天 ) ⋅ P ( 晴天 ) + P ( 下雨 ∣ 阴天 ) ⋅ P ( 阴天 ) + P ( 下雨 ∣ 多云 ) ⋅ P ( 多云 ) P(\text{下雨}) = P(\text{下雨}|\text{晴天}) \cdot P(\text{晴天}) + P(\text{下雨}|\text{阴天}) \cdot P(\text{阴天}) + P(\text{下雨}|\text{多云}) \cdot P(\text{多云}) P(下雨)=P(下雨晴天)P(晴天)+P(下雨阴天)P(阴天)+P(下雨多云)P(多云)

3. 应用案例

1. 离散分布的案例:医学诊断患病概率

1. 确定先验概率

先验概率(Prior Probability, P ( D ) P(D) P(D))通常来源于流行病学数据或专家经验,表示在未进行检测前患者患病的概率。例如,如果某种疾病在人群中的患病率为 1%,则有
P ( D ) = 0.01 , P ( D ˉ ) = 0.99. P(D) = 0.01,\quad P(\bar{D}) = 0.99. P(D)=0.01,P(Dˉ)=0.99.

2. 获取检测指标

通过一些方法,得到测试指标主要包括:

  • P ( T ∣ D ) P(T|D) P(TD):准确率,患者患病时检测呈阳性的概率
  • P ( T ∣ D ˉ ) P(T|\bar{D}) P(TDˉ):假阳性率,患者未患病时检测呈阳性的概率。
  • P ( T ˉ ∣ D ˉ ) P(\bar{T}|\bar{D}) P(TˉDˉ):真负率/特异性,患者未患病时检测呈阴性的概率。

3. 利用贝叶斯公式更新概率

当检测结果为阳性时,我们希望求得患者真正患病的后验概率 P ( D ∣ T ) P(D|T) P(DT)。根据贝叶斯定理,
P ( D ∣ T ) = P ( T ∣ D ) ⋅ P ( D ) P ( T ) , P(D|T) = \frac{P(T|D) \cdot P(D)}{P(T)}, P(DT)=P(T)P(TD)P(D),
其中总体阳性概率 P ( T ) P(T) P(T) 可以通过全概率公式计算:
P ( T ) = P ( T ∣ D ) ⋅ P ( D ) + P ( T ∣ D ˉ ) ⋅ P ( D ˉ ) . P(T) = P(T|D) \cdot P(D) + P(T|\bar{D}) \cdot P(\bar{D}). P(T)=P(TD)P(D)+P(TDˉ)P(Dˉ).
因此,后验概率可以写为:
P ( D ∣ T ) = P ( T ∣ D ) ⋅ P ( D ) P ( T ∣ D ) ⋅ P ( D ) + P ( T ∣ D ˉ ) ⋅ P ( D ˉ ) . P(D|T) = \frac{P(T|D) \cdot P(D)}{P(T|D) \cdot P(D) + P(T|\bar{D}) \cdot P(\bar{D})}. P(DT)=P(TD)P(D)+P(TDˉ)P(Dˉ)P(TD)P(D).

4. 举例说明

假设:

  • 疾病在人群中的患病率为 1%: P ( D ) = 0.01 P(D)=0.01 P(D)=0.01
  • 检测敏感度为 99%: P ( T ∣ D ) = 0.99 P(T|D)=0.99 P(TD)=0.99
  • 假阳性率为2%: P ( T ∣ D ˉ ) = 0.02 P(T|\bar{D})=0.02 P(TDˉ)=0.02

代入公式可得:
P ( D ∣ T ) = 0.99 × 0.01 0.99 × 0.01 + 0.02 × 0.99 ≈ 0.0099 0.0099 + 0.0198 ≈ 0.0099 0.0297 ≈ 0.333. P(D|T) = \frac{0.99 \times 0.01}{0.99 \times 0.01 + 0.02 \times 0.99} \approx \frac{0.0099}{0.0099 + 0.0198} \approx \frac{0.0099}{0.0297} \approx 0.333. P(DT)=0.99×0.01+0.02×0.990.99×0.010.0099+0.01980.00990.02970.00990.333.
这意味着,即使检测准确度很高,在患病率很低的情况下,阳性结果的患者真实患病概率大约只有 33%。

5. 贝叶斯更新

当有多个检测结果时,可以进行迭代更新:

  • 第一次检测得到后验概率 P ( D ∣ T 1 ) P(D|T_1) P(DT1)
  • 将第一次检测的后验作为新的先验,结合第二次检测结果更新,得到 P ( D ∣ T 1 , T 2 ) P(D|T_1, T_2) P(DT1,T2)

在接收到第二次检测结果 T 2 T_2 T2 时,我们将第一次更新后的后验 P ( D ∣ T 1 ) P(D \mid T_1) P(DT1) 当作新的先验,再利用贝叶斯定理更新为第二次检测的后验 P ( D ∣ T 1 , T 2 ) P(D \mid T_1, T_2) P(DT1,T2)
P ( D ∣ T 1 , T 2 ) = P ( T 2 ∣ D )   P ( D ∣ T 1 ) P ( T 2 ∣ D )   P ( D ∣ T 1 ) + P ( T 2 ∣ D ˉ )   [ 1 − P ( D ∣ T 1 ) ] . P(D \mid T_1, T_2) = \frac{P(T_2 \mid D) \, P(D \mid T_1)}{P(T_2 \mid D) \, P(D \mid T_1) + P(T_2 \mid \bar{D}) \, [1 - P(D \mid T_1)]}. P(DT1,T2)=P(T2D)P(DT1)+P(T2Dˉ)[1P(DT1)]P(T2D)P(DT1).

如果两次检测使用的是相同的检测手段(即敏感度和特异度相同),而且在检测时的条件(例如样本采集、处理方法等)也保持不变,那么两次检测的似然函数通常是一样的。即:
P ( T 2 ∣ D ) = P ( T 1 ∣ D ) = P ( T ∣ D ) P(T_2 \mid D) = P(T_1 \mid D) =P(T \mid D) P(T2D)=P(T1D)=P(TD)
这种“贝叶斯更新”(Bayesian updating)过程可以在不断积累新证据的情况下,对患病概率进行更精确的估计。

2. 连续分布的案例:邮件是垃圾邮件的概率

1. 确定先验概率

  • P ( H ) P(H) P(H) 表示邮件为垃圾邮件(Spam)的先验概率;
  • P ( H ˉ ) P(\bar{H}) P(Hˉ) 表示邮件为非垃圾邮件(NonSpam)的先验概率.
  • x x x邮件中某个特征(例如“可疑词汇的加权频率”)的数值。

2. 构建似然函数

假设历史数据表明:

  1. 当邮件为垃圾邮件时,特征 x x x 服从正态分布:
    x ∣ H ∼ N ( μ S , σ S 2 ) . x\mid H \sim \mathcal{N}(\mu_S, \sigma_S^2). xHN(μS,σS2).
    对应的概率密度函数为
    f ( x ∣ H ) = 1 2 π   σ S 2 exp ⁡  ⁣ ( − ( x − μ S ) 2 2 σ S 2 ) . f(x\mid H)=\frac{1}{\sqrt{2\pi\,\sigma_S^2}}\exp\!\Bigl(-\frac{(x-\mu_S)^2}{2\sigma_S^2}\Bigr). f(xH)=2πσS2 1exp(2σS2(xμS)2).

  2. 当邮件为非垃圾邮件时,特征 x x x 服从另一个正态分布:
    x ∣ H ˉ ∼ N ( μ N , σ N 2 ) , x\mid \bar{H} \sim \mathcal{N}(\mu_N, \sigma_N^2), xHˉN(μN,σN2),
    对应的概率密度函数为
    f ( x ∣ H ˉ ) = 1 2 π   σ N 2 exp ⁡  ⁣ ( − ( x − μ N ) 2 2 σ N 2 ) . f(x\mid \bar{H})=\frac{1}{\sqrt{2\pi\,\sigma_N^2}}\exp\!\Bigl(-\frac{(x-\mu_N)^2}{2\sigma_N^2}\Bigr). f(xHˉ)=2πσN2 1exp(2σN2(xμN)2).

其中

  • μ S , σ S 2 \mu_S,\sigma_S^2 μS,σS2:垃圾邮件中 x x x 的均值和方差。
  • μ N , σ N 2 \mu_N,\sigma_N^2 μN,σN2:正常邮件中 x x x 的均值和方差。

3. 应用贝叶斯公式计算后验概率

贝叶斯定理告诉我们,给定观察到特征值 x x x 后,邮件为垃圾邮件的后验概率为:
P ( H ∣ x ) = f ( x ∣ H )   P ( H ) f ( x ∣ H )   P ( H ) + f ( x ∣ H ˉ )   P ( H ˉ ) . P(H\mid x) = \frac{f(x\mid H) \, P(H)}{f(x\mid H) \, P(H) + f(x\mid \bar{H})\, P(\bar{H})}. P(Hx)=f(xH)P(H)+f(xHˉ)P(Hˉ)f(xH)P(H).

其中:

  • P ( H ∣ x ) P(H\mid x) P(Hx):观察到邮件特征 x x x 后,邮件为垃圾邮件的后验概率。
  • f ( x ∣ H ) f(x\mid H) f(xH) f ( x ∣ H ˉ ) f(x\mid \bar{H}) f(xHˉ):分别为垃圾邮件和非垃圾邮件下的似然函数。

具体数值示例及公式推导

假设根据历史数据,我们有:

  • 垃圾邮件: μ S = 0.75 ,   σ S = 0.1 \mu_S=0.75,\ \sigma_S=0.1 μS=0.75, σS=0.1
  • 非垃圾邮件: μ N = 0.4 ,   σ N = 0.1 \mu_N=0.4,\ \sigma_N=0.1 μN=0.4, σN=0.1
  • 先验概率: P ( H ) = 0.3 ,   P ( H ˉ ) = 0.7 P(H)=0.3,\ P(\bar{H})=0.7 P(H)=0.3, P(Hˉ)=0.7

对一封新邮件,测得特征值 x = 0.8 x=0.8 x=0.8

计算垃圾邮件的似然

利用正态分布密度函数:
f ( 0.8 ∣ H ) = 1 2 π ( 0.1 ) 2 exp ⁡  ⁣ ( − ( 0.8 − 0.75 ) 2 2 ( 0.1 ) 2 ) ≈ 3.76. f(0.8\mid H)=\frac{1}{\sqrt{2\pi(0.1)^2}}\exp\!\Bigl(-\frac{(0.8-0.75)^2}{2(0.1)^2}\Bigr) \approx 3.76. f(0.8H)=2π(0.1)2 1exp(2(0.1)2(0.80.75)2)3.76.

计算非垃圾邮件的似然

同理,
f ( 0.8 ∣ H ˉ ) = 1 2 π ( 0.1 ) 2 exp ⁡  ⁣ ( − ( 0.8 − 0.4 ) 2 2 ( 0.1 ) 2 ) ≈ 0.00133. f(0.8\mid \bar{H})=\frac{1}{\sqrt{2\pi(0.1)^2}}\exp\!\Bigl(-\frac{(0.8-0.4)^2}{2(0.1)^2}\Bigr)\approx 0.00133. f(0.8Hˉ)=2π(0.1)2 1exp(2(0.1)2(0.80.4)2)0.00133.

利用贝叶斯公式更新后验概率

将上面结果代入:
P ( H ∣ x = 0.8 ) = 3.76 × 0.3 3.76 × 0.3 + 0.00133 × 0.7 ≈ 0.9992. P(H\mid x=0.8)=\frac{3.76 \times 0.3}{3.76 \times 0.3 + 0.00133 \times 0.7}\approx 0.9992. P(Hx=0.8)=3.76×0.3+0.00133×0.73.76×0.30.9992.

这意味着,新邮件被判断为垃圾邮件的后验概率约为 99.9 % 99.9\% 99.9%

注意

在这种情况下,尽管我们在计算过程中使用了条件概率密度函数,但最终计算得到的是经过归一化的数值,其结果是介于0和1之间的一个概率,而不是概率密度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值