数据科学导论 python语言实现
一、单变量异常检测(一次观测一个变量)
1.1 Z-scores 得分绝对值超过3的
1.2 箱线图
import numpy as np
from sklearn import preprocessing
normailized_data = preprocessing.StandardScaler().fit_transform(boston.data[:,continuous_variables])
outlier_rows,outlier_columns = np.where(np.abs(normalized_data)>3)
单变量方法不能检测哪些不是极端值的异常值,然而,如果它发现两个或多个变量的组合出现不正常的值,所涉及的不是极端值的概率会大,因此多变量检测应运而生
二、多变量异常检测(同时考虑多个变量)
2.1 covariance.EllipticEnvelope类&#x