1. 识别异常值的标准
-
超过第三四分位数1.5倍四分位距(上界)和低于第一四分位数1.5倍四分位距(下界)的数据点。
-
超过3个标准差的数据点。可以使用Z分数,如果Z分数超过2个标准差。
2. 异常值存在的原因
-
数据变异(Variability)
-
实验测量误差
3. 异常值对数据集的影响
-
在统计分析过程中会引发各种问题。
-
可能对均值和标准差产生显著影响。
4. 寻找异常值的常见方法
-
使用散点图
-
箱线图
-
使用Z分数
-
使用四分位距(IQR,Interquartile Range)
5. 使用Z分数检测异常值
Z分数的公式为:Z = (观测值 - 均值) / 标准差
Z = (X - μ) / σ
dataset= [11,10,12,14,12,15,14,13,15,102,12,14,17,19,107, 10,13,12,14,12,108,12,11,14,13,15,10,15,12,10,14,13,15,10]
outliers=[]
def detect_outliers(data):
threshold=3
mean = np.mean(data)
std =np.std(data)
for i in data: