【机器学习-基础知识】统计和贝叶斯推断

人类发明了工具

已于 2025-05-16 15:40:41 修改

阅读量1.4k

点赞数 13

CC 4.0 BY-SA版权

分类专栏： ML&DL学习分享文章标签：机器学习概率论人工智能

于 2025-03-12 11:26:45 首次发布

本文链接：https://blog.csdn.net/LemonShy2019/article/details/146178945

ML&DL学习分享专栏收录该内容

6 篇文章

订阅专栏

1. 概率论基本概念回顾

1. 概率分布

定义： 概率分布（Probability Distribution）指的是随机变量所有可能取值及其对应概率的集合。它描述了一个随机变量可能取的所有值以及每个值被取到的概率。

对于离散型随机变量，使用概率质量函数来描述。
对于连续型随机变量，使用概率密度函数来描述。

举例说明： 投掷一颗六面骰子，每个面上的数字（1到6）都有相同的概率（1/6）出现，这就是一个简单的概率分布例子。

2. 概率函数

定义： 概率函数（Probability Function）是指在离散型随机变量的情况下，给定一个随机变量的值时，计算该值发生的概率的函数。

公式： 对于离散型随机变量 $X$ ，其概率函数通常表示为 $P (X = x)$ ，即随机变量 $X$ 取某个特定值 $x$ 的概率。

举例说明： 抛一枚公平的硬币，令 $X$ 表示出现正面的情况，则 $P(X=\text{正面})=0.5$ 。

3. 概率分布函数（累积分布函数）

定义： 概率分布函数（Cumulative Distribution Function, CDF），也称作累积分布函数，是一个函数，它给出随机变量小于或等于某个值的概率。

公式： 对于任意实数 $a$ ，CDF $\leq a)$ 。

举例说明： 若 $X$ 为一个均匀分布在 $[0, 1]$ 区间上的随机变量，则 $F (x)$ 对于 $\leq x \leq 1$ 为 $x$ ，即 $F (x) = x$ 。

在这里插入图片描述

4. 概率密度函数

定义： 概率密度函数（Probability Density Function, PDF）适用于连续型随机变量，用来描述连续型随机变量落在某个确定值附近的概率密度大小。

公式： 对于连续型随机变量 $X$ ，其PDF记为 $f (x)$ ，满足条件：
$\int_{-\infty}^{\infty} f(x)dx = 1$
并且对于任意两个实数 $a$ 和 $b$ ( $a < b$ )，随机变量 $X$ 落在区间 $[a, b]$ 内的概率由下面积分给出：
$\leq b) = \int_{a}^{b} f(x) dx$

2. 统计和贝叶斯

贝叶斯公式

定义： 贝叶斯公式（Bayes’ Theorem）是一种计算条件概率的方法，它允许我们通过已知的某些条件下的事件发生的概率来更新对另一些条件下该事件发生概率的估计。

公式：
$\frac{P(B|A) \cdot P(A)}{P(B)}$
其中，

$P (A ∣ B)$ 是在事件 B 发生的情况下事件 A 发生的概率，称为后验概率。
$P (B ∣ A)$ 是在事件 A 发生的情况下事件 B 发生的概率，称为后验概率。
$P (A)$ 和 $P (B)$ 分别是事件 A 和事件 B 的边际概率（无条件概率）， $P (A)$ 也被称为先验概率。

全概率公式

定义： 全概率公式（Law of Total Probability）提供了一种方法，用于计算一个复杂事件的概率，特别是当这个事件可以被分解为几个互斥但又完全覆盖样本空间的子事件时。

公式：
如果 $B_1, B_2, ..., B_n$ 是一组互斥且穷尽的事件（即它们之间没有交集，但并集覆盖了整个样本空间），则对于任意事件 A，有
$\sum_{i=1}^{n} P(A|B_i) \cdot P(B_i)$

举例说明： 假设你想要计算某一天下雨的概率。你可以将天气状况分为几种不同的情况（如晴天、阴天、多云等），然后分别计算在每种情况下下雨的概率，最后加权平均这些概率以得到最终的下雨概率。例如：
$P(\text{下雨}) = P(\text{下雨}|\text{晴天}) \cdot P(\text{晴天}) + P(\text{下雨}|\text{阴天}) \cdot P(\text{阴天}) + P(\text{下雨}|\text{多云}) \cdot P(\text{多云})$

3. 应用案例

1. 离散分布的案例：医学诊断患病概率

1. 确定先验概率

先验概率（Prior Probability, $P (D)$ ）通常来源于流行病学数据或专家经验，表示在未进行检测前患者患病的概率。例如，如果某种疾病在人群中的患病率为 1%，则有
$0.01,\quad P(\bar{D}) = 0.99.$

2. 获取检测指标

通过一些方法，得到测试指标主要包括：

$P (T ∣ D)$ ：准确率，患者患病时检测呈阳性的概率
$P(T|\bar{D})$ ：假阳性率，患者未患病时检测呈阳性的概率。
$P(\bar{T}|\bar{D})$ ：真负率/特异性，患者未患病时检测呈阴性的概率。

3. 利用贝叶斯公式更新概率

当检测结果为阳性时，我们希望求得患者真正患病的后验概率 $P (D ∣ T)$ 。根据贝叶斯定理，
$\frac{P(T|D) \cdot P(D)}{P(T)},$
其中总体阳性概率 $P (T)$ 可以通过全概率公式计算：
$\cdot P(D) + P(T|\bar{D}) \cdot P(\bar{D}).$
因此，后验概率可以写为：
$\frac{P(T|D) \cdot P(D)}{P(T|D) \cdot P(D) + P(T|\bar{D}) \cdot P(\bar{D})}.$

4. 举例说明

假设：

疾病在人群中的患病率为 1%： $P (D) = 0.01$
检测敏感度为 99%： $P (T ∣ D) = 0.99$
假阳性率为2%： $P(T|\bar{D})=0.02$

代入公式可得：
$\frac{0.99 \times 0.01}{0.99 \times 0.01 + 0.02 \times 0.99} \approx \frac{0.0099}{0.0099 + 0.0198} \approx \frac{0.0099}{0.0297} \approx 0.333.$
这意味着，即使检测准确度很高，在患病率很低的情况下，阳性结果的患者真实患病概率大约只有 33%。

5. 贝叶斯更新

当有多个检测结果时，可以进行迭代更新：

第一次检测得到后验概率 $P(D|T_1)$ 。
将第一次检测的后验作为新的先验，结合第二次检测结果更新，得到 $P(D|T_1, T_2)$ 。

在接收到第二次检测结果 $T_2$ 时，我们将第一次更新后的后验 $\mid T_1)$ 当作新的先验，再利用贝叶斯定理更新为第二次检测的后验 $\mid T_1, T_2)$ ：
$\mid T_1, T_2) = \frac{P(T_2 \mid D) \, P(D \mid T_1)}{P(T_2 \mid D) \, P(D \mid T_1) + P(T_2 \mid \bar{D}) \, [1 - P(D \mid T_1)]}.$

如果两次检测使用的是相同的检测手段（即敏感度和特异度相同），而且在检测时的条件（例如样本采集、处理方法等）也保持不变，那么两次检测的似然函数通常是一样的。即：
$P(T_2 \mid D) = P(T_1 \mid D) =P(T \mid D)$
这种“贝叶斯更新”（Bayesian updating）过程可以在不断积累新证据的情况下，对患病概率进行更精确的估计。

2. 连续分布的案例：邮件是垃圾邮件的概率

1. 确定先验概率

$P (H)$ 表示邮件为垃圾邮件（Spam）的先验概率;
$P(\bar{H})$ 表示邮件为非垃圾邮件（NonSpam）的先验概率.
$x$ ：邮件中某个特征（例如“可疑词汇的加权频率”）的数值。

2. 构建似然函数

假设历史数据表明：

当邮件为垃圾邮件时，特征 $x$ 服从正态分布：
$x\mid H \sim \mathcal{N}(\mu_S, \sigma_S^2).$
对应的概率密度函数为
$f(x\mid H)=\frac{1}{\sqrt{2\pi\,\sigma_S^2}}\exp\!\Bigl(-\frac{(x-\mu_S)^2}{2\sigma_S^2}\Bigr).$
当邮件为非垃圾邮件时，特征 $x$ 服从另一个正态分布：
$x\mid \bar{H} \sim \mathcal{N}(\mu_N, \sigma_N^2),$
对应的概率密度函数为
$f(x\mid \bar{H})=\frac{1}{\sqrt{2\pi\,\sigma_N^2}}\exp\!\Bigl(-\frac{(x-\mu_N)^2}{2\sigma_N^2}\Bigr).$