42、早产数据集缺失属性值处理与医疗诊断系统属性选择及规则生成技术

早产数据集缺失属性值处理与医疗诊断系统属性选择及规则生成技术

一、早产数据集缺失属性值处理

在早产数据集研究中,为解决数据集中存在的缺失属性值问题,采用了五种方法对三个 Duke 数据集进行处理,分别是 GMC - GA、CMC - CA、CCF - CMC - CA、CCF - CMC 和 CCF - MLEM2。

1. 相关概念
  • 强度乘数 :每个规则集都有一个强度乘数,一般来说,敏感性随强度乘数的增加而增加,特异性则随之降低。选择强度乘数最优值的一个明显标准是真阳性相对频率(用敏感性表示)与假阳性相对频率(用特异性 - 1 表示)之差的最大值,即最大化 Sensitivity + Specificity - 1 = P(TP) - P(FP)。当规则强度乘数等于 1 时对应的总错误率称为初始错误率;对应临界强度乘数的总错误率称为临界错误率。
  • ROC 曲线下面积(AUC) :ROC 图是敏感性与 1 - 特异性的关系图。主对角线(过点 (0, 0) 和 (1, 1) 的直线)表示命中和虚警相等的情况,对应随机诊断。ROC 曲线应位于主对角线之上,离对角线越远越好。AUC 值越大,规则集的质量越好。AUC = 0.5 对应随机诊断,AUC > 0.5 表示结果优于随机诊断,AUC < 0.5 表示结果比随机诊断差。
2. 实验结果
数据集 方法 初始错误率
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值