异常检测：从高斯分布到多元模型-CSDN博客

本文介绍了异常检测的基本概念，重点探讨了如何使用高斯分布进行异常检测，包括单变量和多元高斯分布，并分析了与有监督学习的区别。在特征选择时，通过转换将非高斯分布数据转化为高斯分布，以便更好地识别异常样本。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文为吴恩达机器学习课程的笔记系列第七篇，主要学习异常检测算法。

异常检测(Anomaly Detection)

异常检测属于非监督问题。异常检测是机器学习算法的一个常见应用，是对不匹配预期模式或数据集中其他项目的项目、事件或观测值的识别。简单来说，当正样本比较多时，通过对正样本的学习，机器学会正样本的特征，从而对异常样本有了识别能力。

异常检测的核心就在于找到一个概率模型，帮助我们知道一个样本落入正常样本中的概率，从而帮助我们区分正常和异常样本。

高斯分布模型是异常检测中常用的概率模型。其概率密度函数如下：

$p(x,\mu,\sigma^2)=\dfrac{1}{\sqrt{2\pi}\sigma}exp(-\dfrac{(x-\mu)^2}{2\sigma^2})$

其中：

应用到异常检测算法，对于 $m$ 个样本的数据集，针对每一个特征，进行参数估计：

假设每个样本有 $n$ 个特征，即 $x_i$ 变成一个 $n$ 维的向量 $\begin{bmatrix}x_i^{(1)}\\x_i^{(2)}\\ \vdots \\x_i^{(n)}\end{bmatrix}$

对于一个训练实例，有：

$p(x)=\prod\limits_{j=1}^{n}(x_j,\mu,\sigma^2)=\prod\limits_{j=1}^{n}\dfrac{1}{\sqrt{2\pi}\sigma}exp(-\dfrac{(x-\mu)^2}{2\sigma^2})$

如何判断样本是否异常？

我们选择一个 $\epsilon$ ，将 $p(x)=\epsilon$ 作为我们的判定边界，当 $p(x)>\epsilon$ 时预测数据为正常数据，否则为异常。

异常检测	有监督学习
数据非常偏斜，非常少量的正向类（异常数据 $y = 1$ ）, 大量的负向类（ $y = 0$ ）	数据分布均匀，同时有大量的正向类和负向类
异常的类型不一，很难根据对现有的异常数据（即正样本）来训练算法。	有足够多的正样本，可以根据对正样本的拟合来知道正样本的形态，从而预测新来的样本是否是正样本。
未来遇到的异常可能与已掌握的异常、非常的不同。	未来遇到的正向类实例可能与训练集中的非常近似。
例如：欺诈行为检测生产（例如飞机引擎）检测数据中心的计算机运行状况	例如：邮件过滤器天气预报肿瘤分类