
异常检测
文章平均质量分 51
千行百行
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Charu C. Aggarwal Outlier Analysis 2nd Edition 9.3.1变换成其他形式Transformation to Other Representations
9.3.1.1 数字多维变换不是单点异常,而是集合异常。可以分为两种:全序列异常(full-series anomaly)、子序列异常(subsequence-based anomaly)“advantage of the wavelet representation”说的不是很清楚,个人感觉是正交很重要使用离散小波变换(DWT)和离散傅里叶变换(DFT)两种方法把时间序列转化成系数(coefficients)序列,之后再使用one-class SVMs等方法。其中DFT适用于周期性数据,DWT适用原创 2021-08-26 23:00:02 · 233 阅读 · 0 评论 -
2019-裴丹-CoFlux Robustly Correlating KPIs by Fluctuations for Service Troubleshooting-阿里巴巴
文献解读网文https://zhuanlan.zhihu.com/p/71178532重要概念波动相关性fluctuation correlation、flux-correlation波动特征波动特征(flux-feature)就是预测误差(prediction error)。具体是怎么预测的呢?论文里边给出了7种预测模型,每种模型根据参数的不同有不同的预测结果,所有7种模型合起来预测出来了86种结果,对应地搞出来了86种预测误差,这86种预测误差都是波动特征。佩服阿里!简直是穷举法,一原创 2021-04-01 21:25:47 · 792 阅读 · 0 评论 -
使用孤立森林时需要特征归一化吗?
文章目录答案解释代码示例解释与距离计算无关的基于树的模型,不需要feature scaling,比如决策树、随机森林等,树中节点的选择只关注当前特征在哪里切分对分类更好,即只在意特征内部的相对大小,而与特征间的相对大小无关。1孤立森林是一种基于树的异常检测方法,在做划分时,只需要知道相对大小即可。代码示例根据读者的需要,后期看情况补充深入探讨:为什么要做特征归一化/标准化? ↩︎...原创 2021-04-19 21:45:14 · 958 阅读 · 1 评论 -
误报率、漏报率、准确率和召回率(虚警率、漏警率)
这几个概念太绕了,根据关注点的不同使用的频率也不相同。对于我的日常而言,关注的是是否正常,所以一般用误报率和漏报率。误报指的是本来正常,但是误认为是异常。对应于FN漏报指的是本来异常,但是误认为是正常。对应于FP误报率+召回率=1漏报率+准确率=1...原创 2019-09-06 14:07:08 · 36897 阅读 · 3 评论 -
异常检测中的三种异常:点异常、上下文异常、集合异常
文章目录直观解释点异常上下文异常集合异常Reference直观解释异常检测问题遇到的异常可以分为三类,分别是点异常(Point Anomalies)、上下文异常(Contextual Anomalies)和集合异常(Collective Anomalies)。一图胜千言,下面分别用一张图说明这些异常。点异常示意图如下,其中o1o_1o1、o2o_2o2属于点异常上下文异常示意图如下,其中t2t_2t2处属于上下文异常集合异常示意图如下,箭头所指的红框区域属于集合异常Refer原创 2021-04-09 21:44:39 · 6295 阅读 · 0 评论 -
开发和评价一个异常检测系统
本文是对吴恩达《机器学习》的“126. 开发和评价一个异常检测系统”这一节的总结。重点描述了如何划分数据集、参数的选择、评价指标的选择、超参数的选择。原创 2019-07-24 23:46:06 · 911 阅读 · 1 评论 -
异常检测
Anomaly detection is performed at the root node by finding clusters that are further away from other clusters by more than one standard deviation above the average cluster distance.那些远离其他簇的簇可以认为是异常簇。see alsoScienceDirect scientific topic: anomaly detect原创 2021-04-06 14:29:34 · 347 阅读 · 0 评论 -
评价指标 balanced accuracy
在开发和评价一个异常检测系统中提到了各种评价指标,比较了各种指标,感觉对于非平衡数据来说balanced accuracy1更合适一点。搬运一下原文如下1:不得不说wiki整理的还是很全面的,忍不住再贴两张1https://en.wikipedia.org/wiki/Precision_and_recall#Imbalanced_Data ↩︎ ↩︎ ↩︎...原创 2019-08-18 17:20:03 · 15719 阅读 · 2 评论 -
欧氏距离与余弦相似度
具体概念就不赘述了,参见对比欧氏距离与余弦相似度看论文1时注意到这个描述:在大多数情况下,欧几里德距离可以有效地捕捉物体之间的差异。然而,当数据集的维数增加时,Kriegel等人。[33]表明高维特征向量间的角度方差比直接使用欧氏距离更敏感。在这种情况下,余弦相似度可以获得更好的效果。有必要再看看原始文献2是怎么说的,感觉没有所说的这么神乎其神啊。纯粹个人观点,后期再改。Applyin...原创 2019-07-20 23:06:26 · 720 阅读 · 0 评论 -
Robust Random Cut Forest Based Anomaly Detection On Streams
RRCF和孤立森林差异来自抽选一个维度时服从的规律不同原创 2019-08-29 00:03:22 · 2494 阅读 · 5 评论 -
Huber Regression(Huber回归)
Huber回归的优化目标函数如下:minw,σ∑i=1n(σ+Hϵ(Xiw−yiσ)σ)+α∥w∥22\min _{w, \sigma} \sum_{i=1}^{n}\left(\sigma+H_{\epsilon}\left(\frac{X_{i} w-y_{i}}{\sigma}\right) \sigma\right)+\alpha\|w\|_{2}^{2}w,σmini=1∑n...原创 2019-07-20 20:52:31 · 9398 阅读 · 0 评论