机器学习中的数学基础与算法解析
立即解锁
发布时间: 2025-09-09 00:26:28 阅读量: 13 订阅数: 19 AIGC 


深度学习实战:TensorFlow数学解析
### 机器学习中的数学基础与算法解析
在机器学习领域,数学基础是理解和构建算法的基石。本文将深入探讨统计检验、机器学习算法的构建以及优化技术,同时详细介绍线性回归和分类问题的相关知识。
#### 统计检验
在数据分析中,统计检验是验证假设的重要工具。常见的统计检验包括Z检验和Student - T检验。
Z检验中,深色区域对应p值,例如$P(z \geq 1.75)$ 。$Z_{1 - \alpha}$ 对应的z值表示在原假设为真的情况下,超出该值我们可能会犯第一类错误。超出$z_{1 - \alpha}$ 的区域,即$P(z \geq Z_{1 - \alpha})$ ,代表第一类错误概率。当p值小于检验的第一类错误概率时,原假设不能被认为是真的。通常,Z检验之后会进行置信区间检验。
然而,Z检验并非总是可行的,因为它需要已知总体方差。对于某些问题,我们可能没有总体方差的信息。在这种情况下,Student - T检验更为方便,因为它使用样本方差而非总体方差。
#### 机器学习算法的构建与优化技术
机器学习的建模目标是通过不同的优化技术,在给定数据的情况下最小化模型参数的成本函数。有人可能会问,将成本函数的导数或梯度设为零是否就能得到模型参数。但实际情况并非总是如此,因为并非所有问题都有封闭形式的解,或者封闭形式的解在计算上可能非常昂贵或难以处理。此外,当数据量巨大时,采用封闭形式的解会受到内存限制。因此,对于复杂的优化问题,通常会使用迭代方法。
机器学习大致可分为两类:
- 监督式机器学习
- 无监督式机器学习
#### 监督式学习
在监督式学习中,每个训练数据点都与多个输入特征相关联,通常是一个输入特征向量及其对应的标签。模型通过多个参数构建,试图根据输入特征向量预测输出标签。模型参数通过优化某种基于预测误差的成本函数来推导,即训练数据点的实际标签与预测标签之间的差异。或者,最大化训练数据的似然性也能为我们提供模型参数。
##### 线性回归作为监督式学习方法
以房屋价格预测为例,房屋价格作为目标变量或输出标签,而房屋面积、卧室数量、浴室数量等特征构成输入特征向量。我们可以定义一个函数,根据输入特征向量预测房屋价格。
设输入特征向量为$x'$ ,预测值为$y_p$ ,房屋价格的实际值(即输出标签)为$y$ 。我们可以定义一个模型,输出标签表示为输入特征向量的函数:
$y / x' = \theta'^T x' + b + \epsilon$
其中,$\epsilon$ 是预测中的随机变化,且$\epsilon \sim N(0, \sigma^2)$ 。
由于$\epsilon$ 是随机成分,无法预测,我们能预测的最好结果是给定特征值下房屋价格的均值,即:
$y_p = E[y / x'] = \theta'^T x' + b$
这里,$\theta'$ 是线性组合器,$b$ 是偏置或截距。$\theta'$ 和$b$ 都是我们希望通过训练过程学习的模型参数。为了简化表示,我们可以将偏置添加到对应常数特征1的模型参数中,即$y_p = \theta^T x$ 。
假设我们有$m$ 个样本$(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}) \cdots (x^{(m)}, y^{(m)})$ ,可以计算一个成本函数,该函数取房屋价格预测值与实际值之差的平方和,并尝试最小化它以推导模型参数。成本函数定义为:
$C(\theta) = \sum_{i = 1}^{m} \frac{1}{2} (\theta^T x^{(i)} - y^{(i)})^2$
我们可以相对于$\theta$ 最小化成本函数来确定模型参数,这是一个输出标签或目标为连续值的线性回归问题。
为了简化问题,我们将所有样本的输入向量组合成矩阵$X$ ,对应的目标输出表示为向量$Y$ 。预测向量$Y_p = X\theta$ ,预测误差向量$e = X\theta - Y$ 。成本函数$C(\theta)$ 可以表示为误差向量$e$ 的$l_2$ 范数的平方,即$C(\theta) = \|e\|_2^2 = (X\theta - Y)^T (X\theta - Y)$ 。
通过计算成本函数相对于参数向量$\theta$ 的梯度并将其设为零向量,我们可以直接推导模型参数。成本函数的梯度为$\nabla C(\theta) = 2X^T (X\theta - Y)$ 。令$\nabla C(\theta) = 0$ ,得到$X^T X\theta = X^T Y$ ,进而$\hat{\theta} = (X^T X)^{-1} X^T Y$ 。
然而,对于大型数据集,计算$(X^T X)$ 的逆既耗费成本又占用大量内存。而且,当矩阵$X^T X$ 为奇异矩阵时,其逆是未定义的。因此,我们需要寻找替代方法来找到最小值点。
构建线性回归模型后,需要验证训练数据点的残差误差分布。误差应近似服从均值为0且具有有限方差的正态分布。QQ图可以用于检查残差的高斯性假设是否满足,它绘制了误差分布的实际分位数与理论分位数。
##### 从向量空间角度看线性回归
线性回归问题的目标是确定参数向量$\theta$ ,使得$X\theta$ 尽可能接近输出向量$Y$ 。数据矩阵$X$ 可以看作是$n$ 个列向量$c_i$ 堆叠而成,列空间的维度为$m$ ,列向量的数量为$n$ ,因此列向量最多只能在$m$ 维向量空间中张成一个$n$ 维子空间。
由于$X\theta$ 是$X$ 列向量的线性组合,它位于列向量张成的子空间内。而实际目标值向量$Y$ 位于该子空间之外,因此无论如何组合$\theta$ ,$X\theta$ 都无法与$Y$ 相等,会存在一个非零误差向量$e = Y - X\theta$ 。
为了使误差向量的$l_2$ 范数最小,它应与预测向量$X\theta$ 垂直,即与子空间中的所有向量
0
0
复制全文
相关推荐









