概率与统计基础:概念、分布及应用
立即解锁
发布时间: 2025-09-09 00:26:28 阅读量: 9 订阅数: 17 AIGC 


深度学习实战:TensorFlow数学解析
### 概率与统计基础:概念、分布及应用
#### 1. 概率密度函数
概率密度函数(pdf)用于描述连续随机变量在其定义域内每个值的概率密度。由于是连续变量,概率密度函数在其定义域上的积分必须等于 1。
设随机变量 $X$ 的定义域为 $D$,$P(x)$ 表示其概率密度函数,则有:$\int_{D} P(x) dx = 1$
例如,一个能取 0 到 1 之间值的连续随机变量,其概率密度函数为 $P(x) = 2x$,$x \in [0, 1]$。为验证它是否为概率密度函数,需计算 $\int_{0}^{1} P(x) dx$:
$\int_{0}^{1} 2x dx = [x^2]_0^1 = 1$
所以,$P(x)$ 是概率密度函数。这里积分计算的是曲线下的面积,对于概率曲线,该面积应等于 1。
#### 2. 随机变量的期望
随机变量的期望就是该随机变量的均值。若随机变量 $X$ 取 $n$ 个离散值 $x_1, x_2, \cdots, x_n$,对应的概率为 $p_1, p_2, \cdots, p_n$,即 $X$ 是具有概率质量函数 $P(X = x_i) = p_i$ 的离散随机变量,那么 $X$ 的期望为:
$E[X] = \sum_{i = 1}^{n} x_i p_i$
若 $X$ 是具有概率密度函数 $P(x)$ 的连续随机变量,$X$ 的期望为:
$E[X] = \int_{D} xP(x) dx$
其中 $D$ 是 $P(x)$ 的定义域。
#### 3. 随机变量的方差
随机变量的方差衡量了该随机变量的变异性,它是随机变量与其均值(期望)偏差平方的均值(期望)。
设随机变量 $X$ 的均值为 $\mu = E[X]$,则方差为:
$Var[X] = E[(X - \mu)^2]$
若 $X$ 是取 $n$ 个离散值且概率质量函数为 $P(X = x_i) = p_i$ 的离散随机变量,其方差可表示为:
$Var[X] = \sum_{i = 1}^{n} (x_i - \mu)^2 p_i$
若 $X$ 是具有概率密度函数 $P(x)$ 的连续随机变量,$Var[X]$ 可表示为:
$Var[X] = \int_{D} (x - \mu)^2 P(x) dx$
其中 $D$ 是 $P(x)$ 的定义域。
#### 4. 偏度和峰度
偏度和峰度是随机变量的高阶矩统计量。偏度衡量概率分布的对称性,而峰度衡量概率分布的尾部是否厚重。
偏度是三阶矩,表达式为:
$Skew(X) = \frac{E[(X - \mu)^3]}{(Var[X])^{3/2}}$
完全对称的概率分布偏度为 0。正偏度表示数据大部分集中在左侧,负偏度表示数据大部分集中在右侧。
峰度是四阶统计量,对于均值为 $\mu$ 的随机变量 $X$,峰度可表示为:
$Kurt(X) = \frac{E[(X - \mu)^4]}{(Var[X])^2}$
较高的峰度意味着概率分布的尾部更厚重。正态分布的峰度为 3,通常用超额峰度(实际峰度减去 3)来衡量其他分布相对于正态分布的峰度。
#### 5. 协方差和相关系数
##### 协方差
两个随机变量 $X$ 和 $Y$ 的协方差衡量它们的联合变异性。若 $X$ 的高值对应 $Y$ 的高值,$X$ 的低值对应 $Y$ 的低值,则协方差为正;反之,协方差为负。
协方差公式为:
$cov(X, Y) = E[(X - \mu_x)(Y - \mu_y)]$
其中 $\mu_x = E[X]$,$\mu_y = E[Y]$。简化后为:
$cov(X, Y) = E[XY] - \mu_x \mu_y$
若两个变量独立,它们的协方差为 0。
##### 相关系数
协方差一般不能很好地反映两个变量之间的关联程度,因为变量可能处于不同的尺度。相关系数是协方差的归一化版本,能更好地衡量两个变量的线性依赖程度。
两个变量 $X$ 和 $Y$ 的相关系数为:
$\rho = \frac{cov(X, Y)}{\sigma_x \sigma_y}$
其中 $\sigma_x$ 和 $\sigma_y$ 分别是 $X$ 和 $Y$ 的标准差,$\rho$ 的值介于 -1 和 +1 之间。
#### 6. 常见概率分布
##### 均匀分布
均匀分布的概率密度函数是常数。对于取值在 $a$ 和 $b$($b > a$)之间的连续随机变量,其概率密度函数为:
$P(X = x) = f(x) = \begin{cases} \frac{1}{b - a}, & x \in [a, b] \\ 0, & \text{elsewhere} \end{cases}$
均匀分布的相关统计量如下:
|统计量|公式|
| ---- | ---- |
|期望|$E[X] = \frac{b + a}{2}$|
|中位数|$Median[X] = \frac{b + a}{2}$|
|众数|区间 $[a, b]$ 内的所有点|
|方差|$Var[X] = \frac{(b - a)^2}{12}$|
|偏度|$Skew[X] = 0$|
|超额峰度|$Excess Kurt[X] = -\frac{6}{5}$|
##### 正态分布
正态分布在现实世界中可能是最重要的概率分布。在正态分布中,最大概率密度位于分布的均值处,密度随着与均值距离的平方对称且指数地下降。其概率密度函数为:
$P(X = x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}$
其中 $\mu$ 是均值,$\sigma^2$ 是方差。
正态分布的重要统计量如下:
|统计量|公式|
| ---- | ---- |
|期望|$E[X] = \mu$|
|中位数|$Median[X] = \mu$|
|众数|$Mode[X] = \mu$|
|方差|$Var[X] = \sigma^2$|
|偏度|$Skew[X] = 0$|
|超额峰度|$Excess Kurt[X] = 0$|
任何正态分布都可通过以下变换转化为标准正态分布:
$z = \frac{x - \mu}{\sigma}$
标准正态分布的均值为 0,标准差为 1,常用于统计推断测试。在线性回归中,误差通常假设为正态分布。
##### 多元正态分布
多元正态分布($n$ 维高斯分布)是由均值向量 $\mu$ 和协方差矩阵 $\Sigma$ 参数化的联合概率分布。其概率密度函数为:
$P(x; \mu, \Sigma) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} e^{-\frac{1}{2} (x - \mu)^T \Sigma^{-1} (x - \mu)}$
多元正态分布在机器学习中有许多应用,如处理相关的多元输入数据时,输入特征常假设遵循多元正态分布,基于概率密度函数可将低概率密度的点标记为异常值。
##### 伯努利分布
伯努利试验是一种两个结果互斥且完备(两个结果的概率之和为 1)的试验。伯努利试验遵循伯努利分布。若成功的概率为 $p$,则失败的概率为 $1 - p$。设 $x = 1$ 表示成功,$x = 0$ 表示失败,其概率质量函数为:
$P(X = x) = f(x) = p^x (1 - p)^{1 - x}, x \in \{0, 1\}$
期望和方差分别为:
$E[X] = p$
$Var[X] = p(1 - p)$
伯努利分布可扩展到多类互斥且完备的事件,任何二分类问题都可建模为伯努利试验。
##### 二项分布
在一系列伯努利试验中,我们通常关注成功和失败的总数,而非具体的发生顺序。若在 $n$ 次连续伯努利试验中,$x$ 表示成功的次数,成功的概率为 $p$,则 $x$ 次成功的概率质量函数为:
$P(X = x) = \binom{n}{x} p^x (1 - p)^{n - x}, x \in \{0, 1, 2, \cdots, n\}$
期望和方差分别为:
$E[X] = np$
$Var[X] = np(1 - p)$
##### 泊松分布
当关注某些数量的发生率时,如 1000 个产品批次中的缺陷数量、放射性物质在过去四小时内发射的阿尔法粒子数量等,泊松分布通常是表示此类现象的最佳方式。其概率质量函数为:
$P(X = x) = \frac{e^{-\lambda} \lambda^x}{x!}, x \in \{0, 1, 2, \cdots\}$
期望和方差均为 $\lambda$。
#### 7. 似然函数和最大似然估计
##### 似然函数
似然是在给定生成数据的参数下,观察到数据的概率。假设我们观察到 $n$ 个独立同分布的正态分布观测值 $x_1, x_2, \cdots, x_n$,均值为 $\mu$,方差为 $\sigma^2$,则似然函数为:
$P(Data | Model parameters) = \prod_{i = 1}^{n} P(x_i | \mu, \sigma^2)$
由于观测值独立,可进一步展开为:
$P(Data | Model parameters) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x_i - \mu)^2}{2\sigma^2}}$
##### 最大似然估计
最大似然估计(MLE)是一种估计分布或模型参数的技术,通过推导使似然函数最大化的参数,即最大化在给定模型参数下观察到数据的概率。
例如,亚当抛硬币 10 次,观察到 7 次正面和 3 次反面,假设每次抛硬币独立且相同。设正面的概率为 $p$,则似然函数为:
$L(p) = p^7 (1 - p)^3$
为最大化 $L(p)$,可对 $\log L(p)$ 求导并令其为 0:
$\log L(p) = 7\log p + 3\log(1 - p)$
$\frac{d\log L(p)}{dp} = \frac{7}{p} - \frac{3}{1 - p} = 0$
解得 $p = \frac{7}{10}$。通过计算二阶导数可验证 $p = \frac{7}{10}$ 是最大值点。
在优化中,计算函数 $f(x)$ 的最大值等同于计算 $-f(x)$ 或 $\frac{1}{f(x)}$ 的最小值。在机器学习和深度学习应用中,常将最大化问题转换为最小化问题。
#### 8. 假设检验和 p 值
##### 中心极限定理
设 $x_1, x_2, \cdots, x_n$ 是从均值为 $\mu$、有限方差为 $\sigma^2$ 的总体中独立同分布抽取的样本观测值。样本均值 $\bar{x}$ 遵循正态分布,均值为 $\mu$,方差为 $\frac{\sigma^2}{n}$,即:
$\bar{x} \sim N(\mu, \frac{\sigma^2}{n})$
随着样本大小 $n$ 的增加,$\bar{x}$ 的方差减小,当 $n \to \infty$ 时趋于 0。
##### 假设检验示例
已知 10 岁男孩的平均体重为 85 磅,标准差为 11.6 磅。为检查某县男孩是否肥胖,抽取了 25 个随机男孩,测得平均体重为 89.16 磅。
- **提出原假设**:$H_0$:该县男孩不肥胖,即他们来自均值为 $\mu = 85$ 的总体。
- **计算样本均值的分布**:在 $H_0$ 下,$\bar{x} \sim N(85, \frac{11.6^2}{25})$。
- **计算标准正态变量**:$z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}} = \frac{89.16 - 85}{11.6 / \sqrt{25}} = 1.75$
- **计算 p 值**:$p$ 值是观察到比当前样本均值更远离总体均值的概率,即 $P(Z \geq 1.75) = 0.04$。
- **做出决策**:当 $p$ 值小于指定的阈值 $\alpha$(第一类错误)时,拒绝原假设。通常 $\alpha = 0.05$ 是一个合适的选择。由于计算得到的 $p$ 值小于 $\alpha$,我们不能接受原假设,称该检验具有统计学意义。
通过以上内容,我们了解了概率与统计的基本概念、常见概率分布以及相关的统计推断方法,这些知识在机器学习和深度学习领域有着广泛的应用。
### 概率与统计基础:概念、分布及应用
#### 9. 概念总结与实际应用流程
为了更好地理解上述概率与统计知识在实际中的应用,下面通过一个流程图展示一个简单的数据处理与分析流程,同时对关键概念进行总结。
```mermaid
graph LR
A[数据收集] --> B[数据分布判断]
B -- 均匀分布 --> C1[计算均匀分布统计量]
B -- 正态分布 --> C2[计算正态分布统计量]
B -- 多元正态分布 --> C3[计算多元正态分布统计量]
B -- 伯努利分布 --> C4[计算伯努利分布统计量]
B -- 二项分布 --> C5[计算二项分布统计量]
B -- 泊松分布 --> C6[计算泊松分布统计量]
C1 --> D[期望、方差等分析]
C2 --> D
C3 --> D
C4 --> D
C5 --> D
C6 --> D
D --> E[相关性分析(协方差、相关系数)]
E --> F[假设检验]
F --> G[根据 p 值决策]
```
从流程图可以看出,在实际应用中,我们首先需要收集数据,然后判断数据符合哪种概率分布,接着计算相应分布的统计量,如期望、方差等。之后进行相关性分析,通过协方差和相关系数来衡量变量之间的关系。最后进行假设检验,根据计算得到的 p 值做出决策。
#### 10. 不同分布在实际场景中的应用对比
不同的概率分布在实际场景中有不同的应用,下面通过表格进行对比:
| 分布类型 | 应用场景 | 关键统计量特点 |
| ---- | ---- | ---- |
| 均匀分布 | 如在随机抽样中,每个样本被选中的概率相等的情况 | 期望和中位数为区间中点,方差与区间长度有关,偏度为 0 |
| 正态分布 | 许多自然现象和社会现象,如人的身高、考试成绩等 | 期望、中位数和众数相等,偏度和超额峰度为 0 |
| 多元正态分布 | 处理多元相关数据,如机器学习中的特征输入 | 由均值向量和协方差矩阵参数化,用于异常检测等 |
| 伯努利分布 | 二分类问题,如抛硬币、疾病诊断等 | 期望为成功概率 p,方差为 p(1 - p) |
| 二项分布 | 多次独立的伯努利试验,如多次抛硬币正面出现的次数 | 期望为 np,方差为 np(1 - p) |
| 泊松分布 | 计数问题,如单位时间内的事件发生次数 | 期望和方差都等于 λ |
#### 11. 最大似然估计的拓展应用
最大似然估计不仅可以用于简单的抛硬币问题,在更复杂的模型参数估计中也有广泛应用。例如,在机器学习的线性回归模型中,假设误差项服从正态分布,我们可以使用最大似然估计来估计模型的参数。
设线性回归模型为 $y_i = \beta_0 + \beta_1 x_i + \epsilon_i$,其中 $\epsilon_i \sim N(0, \sigma^2)$。似然函数为:
$L(\beta_0, \beta_1, \sigma^2) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(y_i - \beta_0 - \beta_1 x_i)^2}{2\sigma^2}}$
为了最大化似然函数,同样可以对对数似然函数求导并令其为 0,从而得到 $\beta_0$、$\beta_1$ 和 $\sigma^2$ 的估计值。具体步骤如下:
1. 取对数似然函数:
$\log L(\beta_0, \beta_1, \sigma^2) = -\frac{n}{2} \log(2\pi \sigma^2) - \frac{1}{2\sigma^2} \sum_{i = 1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2$
2. 分别对 $\beta_0$、$\beta_1$ 和 $\sigma^2$ 求偏导数并令其为 0:
- $\frac{\partial \log L}{\partial \beta_0} = \frac{1}{\sigma^2} \sum_{i = 1}^{n} (y_i - \beta_0 - \beta_1 x_i) = 0$
- $\frac{\partial \log L}{\partial \beta_1} = \frac{1}{\sigma^2} \sum_{i = 1}^{n} x_i (y_i - \beta_0 - \beta_1 x_i) = 0$
- $\frac{\partial \log L}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2} \sum_{i = 1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2 = 0$
3. 解上述方程组,得到参数的估计值。
#### 12. 假设检验的注意事项
在进行假设检验时,有几个重要的注意事项:
- **样本的代表性**:样本必须能够代表总体,否则得到的结果可能会产生偏差。例如,在抽样时要确保随机性和独立性。
- **类型 I 错误(α)的选择**:α 的选择需要根据具体的应用场景和风险承受能力来确定。较小的 α 可以降低误判的概率,但可能会增加漏判的概率。
- **样本大小的影响**:样本大小对假设检验的结果有重要影响。较大的样本可以提高检验的准确性,但也会增加成本和时间。在实际应用中,需要根据实际情况合理确定样本大小。
#### 13. 总结
概率与统计的知识在机器学习、深度学习以及许多其他领域都有着至关重要的作用。通过了解概率密度函数、期望、方差、偏度、峰度等基本概念,掌握常见的概率分布,如均匀分布、正态分布、多元正态分布、伯努利分布、二项分布和泊松分布,以及似然函数、最大似然估计、假设检验和 p 值等统计推断方法,我们能够更好地处理和分析数据,做出合理的决策。
在实际应用中,我们需要根据具体的问题选择合适的概率分布和统计方法,同时注意样本的质量和参数的估计。通过不断地学习和实践,我们可以更熟练地运用这些知识,解决各种复杂的问题。
希望通过本文的介绍,读者能够对概率与统计的基础知识有更深入的理解,并在实际工作中灵活运用这些知识。
0
0
复制全文
相关推荐








