早产数据集缺失属性值处理与医疗诊断系统属性选择及规则生成技术
一、早产数据集缺失属性值处理
在早产数据集研究中,为解决数据集中存在的缺失属性值问题,采用了五种方法对三个 Duke 数据集进行处理,分别是 GMC - GA、CMC - CA、CCF - CMC - CA、CCF - CMC 和 CCF - MLEM2。
1. 相关概念
- 强度乘数 :每个规则集都有一个强度乘数,一般来说,敏感性随强度乘数的增加而增加,特异性则随之降低。选择强度乘数最优值的一个明显标准是真阳性相对频率(用敏感性表示)与假阳性相对频率(用特异性 - 1 表示)之差的最大值,即最大化 Sensitivity + Specificity - 1 = P(TP) - P(FP)。当规则强度乘数等于 1 时对应的总错误率称为初始错误率;对应临界强度乘数的总错误率称为临界错误率。
- ROC 曲线下面积(AUC) :ROC 图是敏感性与 1 - 特异性的关系图。主对角线(过点 (0, 0) 和 (1, 1) 的直线)表示命中和虚警相等的情况,对应随机诊断。ROC 曲线应位于主对角线之上,离对角线越远越好。AUC 值越大,规则集的质量越好。AUC = 0.5 对应随机诊断,AUC > 0.5 表示结果优于随机诊断,AUC < 0.5 表示结果比随机诊断差。
2. 实验结果
数据集 | 方法 | 初始错误率 | 临 |
---|