chapter02 基于统计的方法

最新推荐文章于 2023-07-20 14:22:39 发布

沐白若兮

最新推荐文章于 2023-07-20 14:22:39 发布

阅读量597

点赞数

CC 4.0 BY-SA版权

分类专栏：学习

本文链接：https://blog.csdn.net/qq_37337494/article/details/116828286

学习专栏收录该内容

5 篇文章

订阅专栏

本文介绍了基于统计方法的异常检测，包括参数方法和非参数方法。参数方法假设数据遵循特定参数分布，如正态分布，并通过3sigma法则或概率密度函数识别异常点。非参数方法如直方图检测不预先设定模型，而是从数据中学习。HBOS作为一种快速的非参数方法，适用于全局异常检测。总结了统计方法的优点及其在大数据集上的应用价值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

chapter02 基于统计的方法

1.概述

统计方法对数据正常性数据作出假设。假设正常数据由统计模型产生，不遵守该模型的是异常数据。统计方法的有效性高度依赖于给定的数据所做的统计模型假设是否成立。

思想：学习一个拟合给定数据的生成模型 ,识别该模型低概率区间的对象，将他们作为异常点。

根据如何指定和学习模型，基于统计的异常检测方法可以划分为参数方法和非参数方法。

参数方法：假定正常数据由符合参数的分布产生，该参数分布的概率密度函数f(x,θ)给出对象x被该分布产生的概率。值越小，越可能是异常点。

非参数方法：不假定先验统计模型，试图从输入数据确定模型。非参数方法通常假定参数的个数和性质都是灵活的，不做预先的假设。

2.参数方法

2.1 基于正态分布的一元异常点检测

# 一元数据：仅涉及一个属性或变量的数据。

正态分布方法假设数据由正态分布产生，可以根据输入数据学习正态分布的参数，得到概率密度函数，把低概率的点识别为异常点。

求出参数后，根据概率密度分布函数计算数据点服从该分布的概率。正态分布的概率密度函数为：

设定阈值，如果计算的概率低于阈值，则认定发生了异常。

在3sigma法则中，假定正常数据在（μ-3σ，μ+3σ）区间，如果点的范围超过了这个区间，认为是异常点。

这个方法可以用于可视化，箱线图对数据分布做了简单的统计可视化，利用数据的上下四分位数Q1和Q3、中点等形成。异常点被定义为小于 Q1-1.5IQR或者大于Q3+1.5IQR的那些数据。

IQR=Q3-Q1

高斯分布的概率密度函数随参数变化如下：

数据预处理：在这里假设数据符合高斯分布，假设数据不符合高斯分布要对数据进行预处理，如下假设数据符合长尾分布，则对数据进行log变换变为正态分布。

2.2 多元异常点检测

# 多元数据：涉及两个或多个属性或变量的数据。

分解为一元数据异常检测：

在假设各个特征相互独立情况下，概率密度函数为每一维度的累乘形式。

当多个特征相关时，符合多源高斯分布时如下：

使用混合参数分布，许多情况下假定数据由正态分布产生，当实际数据复杂时，这种假定过于简单，可以假定数据是被混合参数分布产生的。

3.非参数方法

例子：使用直方图检测异常点。

直方图是一种频繁使用的非参数统计模型，可以用来检测异常点。该过程包括如下两步：

步骤1：构造直方图。使用输入数据（训练数据）构造一个直方图。该直方图可以是一元的，或者多元的（如果输入数据是多维的）。

尽管非参数方法并不假定任何先验统计模型，但是通常确实要求用户提供参数，以便由数据学习。例如，用户必须指定直方图的类型（等宽的或等深的）和其他参数（直方图中的箱数或每个箱的大小等）。与参数方法不同，这些参数并不指定数据分布的类型。

检测异常点。步骤2：为了确定一个对象是否是异常点，可以对照直方图检查它。在最简单的方法中，如果该对象落入直方图的一个箱中，则该对象被看作正常的，否则被认为是异常点。

对于更复杂的方法，可以使用直方图赋予每个对象一个异常点得分。例如令对象的异常点得分为该对象落入的箱的容积的倒数。

使用直方图作为异常点检测的非参数模型的一个缺点是，很难选择一个合适的箱尺寸。一方面，如果箱尺寸太小，则许多正常对象都会落入空的或稀疏的箱中，因而被误识别为异常点。另一方面，如果箱尺寸太大，则异常点对象可能渗入某些频繁的箱中，因而“假扮”成正常的。

4.基于角度的方法

基于角度的方法的主要思想是：数据边界上的数据很可能将整个数据包围在一个较小的角度内，而内部的数据点则可能以不同的角度围绕着他们。如下图所示，其中点A是一个异常点，点B位于数据内部。

如果数据点与其余点离得较远，则潜在角度可能越小。因此，具有较小角度谱的数据点是异常值，而具有较大角度谱的数据点不是异常值。

考虑三个点X,Y,Z。如果对于任意不同的点Y,Z，有：

其中|| ||代表L2范数 , <⋅>代表点积。

这是一个加权余弦，因为分母包含L2-范数，其通过距离的逆加权进一步减小了异常点的加权角，这也对角谱产生了影响。然后，通过改变数据点Y和Z，保持X的值不变计算所有角度的方法。相应地，数据点X的基于角度的异常分数（ABOF）∈ D为：

5.HBOS

HBOS全名为：Histogram-based Outlier Score。它是一种单变量方法的组合，不能对特征之间的依赖关系进行建模，但是计算速度较快，对大数据集友好。其基本假设是数据集的每个维度相互独立。然后对每个维度进行区间(bin)划分，区间的密度越高，异常评分越低。

HBOS算法流程：

1.为每个数据维度做出数据直方图。对分类数据统计每个值的频数并计算相对频率。对数值数据根据分布的不同采用以下两种方法：

静态宽度直方图：标准的直方图构建方法，在值范围内使用k个等宽箱。样本落入每个桶的频率（相对数量）作为密度（箱子高度）的估计。时间复杂度：O(n)

2.动态宽度直方图：首先对所有值进行排序，然后固定数量的Nk个连续值装进一个箱里，其中N是总实例数，k是箱个数；直方图中的箱面积表示实例数。因为箱的宽度是由箱中第一个值和最后一个值决定的，所有箱的面积都一样，因此每一个箱的高度都是可计算的。这意味着跨度大的箱的高度低，即密度小，只有一种情况例外，超过k个数相等，此时允许在同一个箱里超过Nk值。

时间复杂度：O(n×log(n))

2.对每个维度都计算了一个独立的直方图，其中每个箱子的高度表示密度的估计。然后为了使得最大高度为1（确保了每个特征与异常值得分的权重相等），对直方图进行归一化处理。最后，每一个实例的HBOS值由以下公式计算：

Demo

# 导入相关依赖模块
from pyod.utils.data import evaluate_print,generate_data
from pyod.models.hbos import HBOS
from pyod.utils.example import visualize

# pyod中用于生成toy数据的方法主要是：
# 1、pyod.utils.data.generate_data()
# 2、pyod.utils.data.generate_data_clusters()

# 于是....生成toy example：
contamination = 0.05  # percentage of outliers
n_train = 1000  # number of training points
n_test = 500  # number of testing points
X_train, y_train, X_test, y_test = generate_data(n_train=n_train, n_test=n_test, contamination=contamination)

# 初始化HBOS模型
clf_name = 'HBOS'
clf = HBOS() 
clf.fit(X_train)

# get the prediction labels and outlier scores of the training data
y_train_pred = clf.labels_  # binary labels (0: inliers, 1: outliers)
y_train_scores = clf.decision_scores_  # raw outlier scores

# get the prediction on the test data
y_test_pred = clf.predict(X_test)  # outlier labels (0 or 1)
y_test_scores = clf.decision_function(X_test)  # outlier scores

# evaluate and print the results
print("\nOn Training Data:")
evaluate_print(clf_name, y_train, y_train_scores)
print("\nOn Test Data:")
evaluate_print(clf_name, y_test, y_test_scores)

# 可视化展示训练集、测试集异常检测结果
visualize(clf_name, X_train, y_train, X_test, y_test, y_train_pred,
          y_test_pred, show_figure=False, save_figure=True)