题目:通过深度学习和手动提取特征的融合,对乳腺超声和钼靶影像中的良恶性乳腺肿瘤分类
摘要:乳腺癌是一种全世界范围的疾病,影响着不同国家的女性。引起乳腺癌的真正原因较为复杂,由于乳腺癌的高风险,早期发现该疾病对于降低死亡率是必要的。早期的治疗可以提高妇女的预期寿命和生活质量。CAD(计算机辅助诊断)系统可以利用基于图像处理的技术和工具对乳腺癌的良恶性病变进行诊断,在辅助医生进行诊断时,以更少的流程获得更精确的诊断。本研究提出了一种新的乳腺癌自动诊断的CAD系统。所提出的方法包括不同的阶段。在预处理阶段,对图像进行分割,获得病灶的掩模;在下一阶段,通过深度学习神经网络DenseNet 201进行特征提取;此外,从图像中获得手工提取特征(Histogram of Oriented Gradients (HOG)-based, ULBP-based, perimeter area, area, eccentricity, 和circularity)。本研究设计的混合系统使用CNN架构提取深度学习特征,同时也通过传统的方法提取多个手动提取的特征,并通过提出的统计标准进行后期融合,跟踪疾病的医学特性。在融合阶段,采用遗传算法和基于互信息的选择算法对深度学习和手动提取的特征进行分析,然后采用基于随机测度的几种分类器(XGBoost、AdaBoost、多层感知器(MLP))在特征中选择最敏感的信息组。在CAD设计的两种模式的实验验证中,使用了两种类型的医学影像——乳房钼靶影像和超声(US)影像,使用了两个公共数据集mini-DDSM(乳腺钼靶数据集)和BUSI(乳腺超声图像数据集)。对新型CAD系统进行了评估,并与最近最先进的系统进行了比较,在常用标准中表现出更好的性能,上述数据集的ACC为97.6%,PRE为98%,召回率为98%,f1评分为98%,IBA为95%。
目录
题目:通过深度学习和手动提取特征的融合,对乳腺超声和钼靶影像中的良恶性乳腺肿瘤分类
2.2.2. Feature Extractor Based on Transfer Learning
2.2.4. Principal Component Analysis
3.3. Evaluation Using BUSI Ultrasound Dataset
3.4. Evaluation Using Mammography Dataset Mini-DDSM
3.5. Significance Analysis Using Wilcoxon Test
3.6. Evaluating Fusing the US and MG Images
3.7. Comparison with State-of-the-Art Systems
1. Introduction
乳腺癌是一种影响世界各地女性的疾病;它是被诊断最多的,也是四种危险类型的癌症之一。此外,它也是导致妇女死亡的主要原因。据估计,2020年有230万新发病例表明,当年每8个诊断病例中就有1个是乳腺癌。在2020年,估计会有684,996人死于乳腺癌,到2040年,病例数将增加近50%的[1,2]。
在癌症诊断中,肿瘤有良性和恶性类型。良性肿瘤不会扩散到全身,而且在手术切除后通常不会再次出现。恶性肿瘤侵入乳腺周围的组织,癌细胞可以扩散并侵入身体的其他器官,导致转移的发展,这是可能导致患者死亡的几种并发症之一。乳腺癌的早期发现能够提高治疗的有效性,防止疾病的进展和根除,并给予90%或更高的生存概率。治疗是指手术切除、放疗、免疫治疗和化疗、[3,4]等方面的结合。
本研究探讨了不同的医学成像技术,即乳房钼靶(MG)和超声波(US)。钼靶图像是通过发射少量的辐射来获得的,辐射的吸收取决于组织的密度,根据传递到不同组织[5]的辐射剂量获得图像。超声图像是通过发射超声波产生图像,声阻抗起着重要的作用,声阻抗用来描述超声能量通过物质或组织发生折射和吸收产生的阻力。因为不同的组织有不同的阻抗,那些阻抗较高的组织显得更亮,返回强度更大,比如骨骼。超声传感器还计算波的返回时间,这意味着近的物体在远处的物体之前被反射,并相应地被放置在更靠近屏幕[6,7]的地方。
美国放射学会(ACR)建立了一种标准化的方法来描述医学成像中包含的乳腺病变的感知特征,如MG和计算机断层扫描(CT)。该系统被称为BI-RADS(乳房成像报告和数据库系统),允许人们根据其特征,如形状、纹理和大小,来确定肿块是良性还是恶性,并指示每种状态的概率。因此,患者的治疗取决于所获得的诊断[6,8-10]。下面,我们将简要介绍BI-RADS系统。
当图像没有提供足够的信息进行诊断时,将分配BI-RADS 0。必须要求事先进行研究,并获得新的图像进行分析。BI-RADS 1的特征是MG图像中正常的乳腺,即没有出现可疑的发现。在BI-RADS 2的类别中,没有癌症的迹象,但可能有良性的发现。BI-RADS 3到BI-RADS 5类别表示的概率值大于0%,最高小于或等于95%。BI-RADS 6表明,癌症的存在已被证实。
大多数自动化CAD(计算机辅助诊断)系统都基于各种机器或深度学习策略,应用深度或手动提取的特征,在不同的应用中获得优越的性能,如分割和分类。CAD系统的性能是通过常用的指标进行评价,如准确性(ACC)、精度(PRE)、灵敏度(SEN)、特异性(SPE)、f1评分等。下面,我们将简要回顾一下最近提出的CAD系统,这些系统在这些指标方面表现出了出色的性能。
Wei等人[11]使用了从中国福建泉州第一医院收集的数据库。他们的系统删除了图像的边缘,消除了伪影。作为手动提取特征,他们采用了统一的局部二进制模式(uLBP)、直方图导向梯度(HOG)和灰色水平共现矩阵(GLCM)纹理特征。最后,基于贝叶斯定理,两种不同的SVM分类器将这些特征分为两类。二元分类的结果如下: ACC为91.11%,SEN为94.34%,SPE为86.49%。
Zhang等人[12]首先通过去除噪声、通过对数空间变换增强图像、去除胸斜肌和背景来分割MG的ROI。然后,通过分数式傅里叶变换得到时频谱系数;然后,通过主成分分析技术来减少这些特征。最后,使用分类器(SVM和k-最近邻),得到以下性能结果(在SVM的情况下):SEN为92.22%,SPE为92.10%,ACC为92.16%。
Daoud等人[13]使用分隔框获得了ROI图像。利用VGG-19模型进行深层特征提取,选择手动特征(800个特征)和形态特征(18个特征),对超声乳腺病变进行分类。然后,该方法通过CNN体系结构的每个卷积层将手动特征与深度特征相结合,得到ACC为96.1%,SEN为95.7%,SPE为96.3%。
Jabee等人[14]在他们的系统中执行了几个主要步骤:数据增强,通过预先训练的DarkNet-53对输出层进行处理,以及从全局平均池层中提取特征。然后,采用两种优化算法提取最佳特征:Reformed Differential Evaluation(RDE)和Reformed Gray Wolf(RGW)。通过三次SVM对获得的特征进行分类,PRE为99.3%。
Heenaye-Mamode等人[15]开发了一个卷积神经网络(CNN)来分割和分类不同类型的乳房异常,如不对称性、钙化、肿块和癌。首先,使用预先训练好的模型ResNET-50对他们的数据集进行迁移学习。然后,他们采用了一个增强的深度学习模型,在误差曲线变化下自适应调整学习率。因此,该新模型在MG图像中对这四种乳腺癌异常(肿块、钙化、癌和不对称性)进行分类时获得了88%的PRE。
Tsai等[16]利用台湾的E-Da医院数据库,为医生提出的每个图像分配标签,进行BI-RADS分类。根据所在位置中病变区域的比例进行分类,间距为224×224块,间距为36像素。该方法是基于高效的网络深度架构。最后进行分类,PRE为94.22%,SEN为95.31%,SPE为99.15%。
Muduli等[17]提出了一个CNN模型,用于不同类型的图像: MG和US。该模型包含5个可学习的卷积块,每个块包含4个卷积层和一个全连接层作为分类器。该模型自动从可调参数较少的图像中提取显著特征。在MG数据集(MIAS、DDSM和Inmase)和超声数据集(BUS-1和BUS-2)上的结果证实,与最近最先进的方案相比具有更好的性能。此外,数据增强可以减少过拟合。他们的CNN模型在MIAS、DDSM和Inmmase数据集上的ACC分别为96.55%、90.68%和91.28%。同样,在BUS-1和BUS-2数据集上获得的ACC分别为100%和89.73%。
在他们的工作中,Raza等人[18]提出了一个CNN架构,包含24个卷积块,由6个卷积滤波器、9个初始模块和1个全连接层组成。他们使用了RELU、Leaky-RELU和RELU-clipped的激活函数和BN。结果可达到ACC为99.35%,PRE为99.6%,SEN为99.66%,f1-评分为99.6%。
Alsheikhy等人[19]提出了一项使用AlexNET CNN架构的研究,使用了不同的分类器,如K-Nearest Neighbor(KNN)、高斯核朴素贝叶斯和决策树(DT)。采用小波变换对图像进行高斯白噪声去噪。此外,利用主成分分析技术对所得数据进行了高维缩减。评估了三个私人数据集: Kaggle乳腺组织病理学图像(BHI)、CBIS-DDSM乳腺图像和威斯康辛州乳腺癌组织图像(BCW)。其平均ACC超过98.6%,一些指标大于98.0%。
在Zhang等人[20]的研究中,作者采用了标准的八层CNN,并通过集成Batch Normalization(BN)和Dropout(DO)两种技术对其进行了改进。在最后一个阶段,他们使用了基于秩的随机池化(RSP)。BDR-CNN模型,是上述技术的组合,与两层GCN混合,得到一个新的BDR-CNN-GCN模型中。通过对来自mini_MIAS数据集的322张MG图像进行实验,并采用了14路数据增强方法。该框架的性能SEN为96.20%,SPE为96.00%,ACC为96.10%。
Nagwan等人在他们的研究[21]中,使用伪彩色技术——对比度有限自适应直方图均衡(CLAHE)和像素级强度调整生成输入图像。生成的图像由第一通道中的原始图像组成,第二个通道表示CLAHE增强图像。最后,最后一个通道包含了所得到的伪彩色图像。这些图像被输入作为CNN的主干来生成高水平的深度特征。接下来,我们采用了逻辑回归(LR)和主成分分析(PCA)的处理技术。该CAD系统在inmise和迷你miAS数据集上的性能最高分别为98.60%和98.80%。
在以往的研究中,采用深度学习特征提取策略的主要缺点是缺乏表征和选择可以衡量分类性能的深度特征的过程。目前的研究提出了一种新的融合策略来识别信息特征,并消除可能降低分类性能的不相关特征。此外,我们还研究并证明了该设计方法在将深度特征与手动特征结合方面具有更好的性能,从而保证了更高的分类性能。
为了克服上述问题,我们提出了一种有效的适合于乳腺MG和超声图像的深度学习-手动提取特征模型。这项工作的主要贡献如下:
1、根据统计标准对病变特征进行分析,将深度学习与手工特征融合,保证了更好的诊断性能;
2、我们使用了两种不同的研究类型。在开发的系统中使用MG和超声图像证明了新系统比当前SOTA系统具有更优性能,无论是独立的还是组合的;
3、采用了几种特征融合算法,如遗传算法和基于互信息的选择算法;它们都是基于概率的方法,似乎在MG和超声图像的病变分类方面表现出优越的性能。
手稿的其余部分分为以下几个部分:第2节描述了提出的系统和提出的特征的融合程序。第3节解释了测试和性能评估结果的实验设置。第4节讨论了该评价。最后,本研究的结论在第5节。
2. Materials and Methods
在本研究中,我们使用了两个数据集,一个是超声图像,另一个是MG图像,如下所述。
2.1. Databases Used
乳腺超声图像数据集(BUSI)是2018年收集的数据集。收集的数据包括780张PNG格式的乳腺超声图像,大小为500×500像素,包括600例的分割掩模。此外,这些图像被标记为三类:正常、良性和恶性。该数据库可以在线获取[22]。mini-DDSM是DDSM(用于乳房x光检查的钼靶数据库)的当前版本,以8位JPEG和16位PNG格式呈现。数据分为正常、良性、恶性。此外,这些图像还包含了病变的位置。该数据库可从以下研究资料和网页[22–24]中获得。图1和图2展示了来自这些数据集中的几个良性和恶性病变的例子。
图1. (a)良性病变原始超声图像(b)良性病变掩模图(c)恶性病变原始超声图像(d)恶性病变掩模图。
图2. (a)原始MG图像良性病变,(b)良性病变标签图像,用过滤器(7×7)扩张(对钼靶图像不了解,不知道这么翻译对不对),以更好地可视化,(c)原始MG图像恶性病变,(d)恶性病变标签图像用过滤器(7×7)扩张,以更好地可视化。
对于上述所使用的数据库,我们只使用良性和恶性类别来训练所提出的CAD系统,以帮助放射科医生对乳腺病变进行二元分类。对于放射科医生来说,确定乳房x光检查是否正常或是否有任何异常迹象是一项简单的任务;然而,将病变分类为良性或恶性仍然是一个挑战,即使对放射科专家[25]来说也是如此。此外,该系统仅根据BI-RADS-1医学分类系统划分了两类,其中,如果乳房不包含任何病变,则必须进行为期6个月的更新研究。表1显示了图像根据它们所属的类别的分布。
2.2. Proposed Method
如图3所示的设计系统称为Deep Breast Fusion System Genetic Mutual Information(DBFS_GMI)CAD系统,包含四个主要阶段:预处理、特征提取、特征融合和分类。在第一阶段,对MG图像进行分割,并对超声图像进行手工分割。在系统的第二阶段提取了深度和手动特征。对于基于BI-RADS医疗系统的手动特征,我们提取了形状和纹理特征,如面积、周长、偏心度和圆度特征,以及HOG和ULBP特征。同时,利用DenseNET-201体系结构获得了深度特征。然后,将深度特征和手动特征连接起来。第三个(关键)阶段是特征融合,即两种模态图像的所有特征都通过遗传技术进行处理,并基于概率方法进行互信息选择,允许特征的选择对最终性能产生更好的影响。在最后阶段,通过使用几个分类器进行分类: XGBoost、多层感知器和AdaBoost。在本节的其余部分中,我们将详细解释在系统中执行的操作。
图3.计算机辅助诊断系统的方框图。
2.2.1. Segmentation
在系统的第一步,分割过程是通过手动分割两种医学图像。
分割是通过将图像分割成小组织来实现的,即定义描述图像特征的对象。这个过程有助于获得应该分析的感兴趣区域(ROI),删除几个不提供信息的部分,如在图像中发现的标签或其他元素[26,27]。因此,特征提取器阶段不处理完整的输入图像,减少了推理时间,提高了系统的性能。图像分割是许多深度学习方案中一个关键的过程,我们的分类系统也不例外。
由于采集过程[11]的性质,由于包含的噪声和低对比度值,从超声获取ROI图像更加困难。此外,由于专家接受专业训练可以看到病变,因此由放射科医生手工裁剪每张图像并标记ROI。
一名专家手工裁剪并标记病变为MG图像(图4)。然后,我们使用Suzuki-Abe算法来寻找轮廓,以划定病变。接下来,使用边界框算法。此方法将创建了一个矩形包围圈包围一个物体,给我们病变限制的x轴和y轴坐标。然后,用给定的坐标来裁剪原始图像。最后,我们在生成的矩形的所有四种大小中添加了一个25像素的公差,并使用这些坐标来裁剪原始图像。该过程的结果如图4所示,其中显示了MG图像中包含的病变所获得的肿块。
图4。(a)原始MG图像。(b)在MG图像中发现病变的感兴趣区域(ROI)。
MG图像的对比度通常会有所不同,导致对病变的识别能力薄弱。因此,为了获得更好的识别性能,有必要增强MG图像并突出其感知元素。此外,对比度使其更容易分析病变。本研究采用直方图均衡化的方法,以获得更好的图像对比度。这使得最亮的区域更亮,而黑暗的区域更暗。该程序是将像素的分布从原始直方图(像素强度分布的代表图)修改为更广泛的分布范围,从0到255,其中累积分布定义如下:
并重新分配一个新的像素值,以实现均衡图像的进一步分布:
接下来,我们使用窗口为(3×3)的中值滤波器模糊均衡的图像。使用中值滤波器的目的是消除图像中包含的具有不同强度[28]的伪影。
阈值程序包括使用一个掩模来划分要分析的区域,从而产生一个二值图像,其中强度值高于已建立的阈值的像素的值为1,而那些不符合该标准的像素取值为零[29]。将该技术应用于上一步过滤后的图像,获得ROI的二值图像:
在获得二值化图像后,我们使用了一个大小为的中值滤波器(9×9),并使用Suzuki-Abe算法来寻找和划定病变的轮廓。最后,我们标记所包含的物体的区域,选择病变最广泛的区域(见图5)。
图5(a) 从MG图像中获得的病变的ROI。(b)从ROI图像中分割出的病变掩膜。
2.2.2. Feature Extractor Based on Transfer Learning
在本研究中,深度学习特征通过DenseNET-201架构获得迁移学习,其中使用了来自数据集US和MG的ROI图像。
迁移学习是一种机器学习技术,其中一个模型被用来解决与它的设计任务不同的任务[30–32]。这种技术很常用,因为与从头开始训练CNN相比,它需要更少的数据。通过应用这种技术,深度学习模型可以开发出更短的处理时间。从一个预先训练好的模型中考虑了两种主要的方法:微调和特征提取器。微调意味着对特定卷积层或卷积块的模型进行重新训练,并在特定任务中替换分类器,因此该方法可以根据所提供的当前信息调整模型。
另一方面,特征提取器方法删除了分类块,并将提取的特征保持到模型的最后一个卷积层。这些通用特征是基于对类似任务中的模型的知识。最后,用分类器对这些特征进行了分析。
在所提出的系统中,我们在预训练的架构上采用了迁移学习的方法,在这种情况下,使用了经过ImageNET分类任务训练的DenseNET体系结构,假设它是用来分类特定的图像,因此,体系结构应该能够作为通用特性提取器执行。
DenseNET [33]是一种常用的网络,它的卷积层紧密连接。与其他CNN架构相比,这一特性具有优势,因为存在消失梯度问题,消失梯度问题即为信息在到达下一个卷积块,甚至是下一个卷积层之前被丢失或消失。通过改进信息数据流,该体系结构的密集连接性提供了一个稳定的方案,该方案从前面所有层接收集体知识,这意味着所获得的特征映射在整个体系结构中都被共享。另一个优势是可以直接从损失函数和原始图像中访问梯度值。从上述DenseNET架构的亮点中,一些作者[34–36]已经证明了DenseNET方案在应用于不同数据集的对象识别方面具有优异的性能,如ImageNET挑战和CIFAR-100数据集。在图6中,给出了DenseNET体系结构的一种概念性方法。
DenseNET中提供的集体知识可以表示如下:
其中X0是第一个特征图输出,可以通过所有包含的特征图投影到第l层。
图6. DenseNET架构。
在0,……,l−1层中有特征映射,可以组成为一个函数Hl(·),在这些层中执行三个操作:Batch Normalization,RELU激活函数,和3×3卷积。特征映射的大小在密集块内是相同的,因为子采样是通过过渡层进行的,因此它们可以很容易地连接起来。在具有L层的密集块的体系结构中,层之间的直接连接总数为L(L + 1)/2。增长率k是为了控制每一层的新产生的特征映射的数量,因为特征映射之间的连接。因此,密集块层中的特征映射的总数为k0 +(l−1)∗k,其中k0为输入层中的通道数。
2.2.3. LBP and HOG Features
该新系统通过局部二进制模式(LBP)提取手动特征的纹理特征,对于类似的形式,通过应用HOG技术进行提取。
局部二值模式是一种描述符,广泛用于表征待分析图像的纹理。通过滑动窗口扫描像素,将中心像素的强度与周围像素的强度进行比较,生成二进制码来实现。如果该值较大,则该结果等于1;否则,其结果为零。为了进行LBP,使用中心像素与待计算的邻居之间的距离作为半径r,并以圆对称邻域中需要考虑的点数p作为参数[37–39]。LBP运算定义如下:
其中,s(·)函数表示为:
另外,xc和yc是中心像素的坐标,xi,yi是其在输入图像I中的第i个邻居的坐标。
为了获得局部二进制模式,对滑动窗口的每一步进行以下操作,并将中心像素与每个邻居像素的值进行比较。首先将像素在右上角,顺时针移动。通过取中心值的强度,然后减去相邻像素的强度来进行比较。如果差值为0或小于零,即为负数,则其值接近于零。相反,如果减法的值大于0,则该值为1。这些值被存储为一个二进制数组,并将它们转换为十进制,我们可以得到中心像素的新值。图7说明了如何在LBP方法中生成中心像素的值。
图7.中心像素的LBP生成过程。
使用这个新矩阵,形成直方图,其中值范围从0到255,有256个箱子。长度为K的直方图H,是由图像I计算得到的,定义如下:
其中,K∈[0,1,……,k−1],是直方图的第k个bin。
图8为生成的LBP图像,从MG图像的ROI中获得的。
图8.(a) 从MG图像中获得的ROI图像,(b)生成(a)的LBP图像,其中可见病变的纹理。
HOG被称为形状描述符。利用梯度的大小和角度计算特征[40–42]。
梯度按像素(x、y)的垂直和水平方向计算,即如下所示:
其大小的计算方法如下:
并进行了说明,具体方向如下:
在获得大小和角度梯度矩阵后,将它们分为8×8块,计算每个块有9个容器的直方图,其中每个容器的角度范围为20◦,并将梯度方向的值分配给其像素。通过这种方式,通过这种方式,我们计算在块中每个单元格范围内的像素梯度的方向:
在式(12)中,提供了每个bin的bin及其值。bin的编号为0到B−1,宽度w= 180/B。bini有边界(wi,w(i + 1))和中心ci = w(i + 1/2)。一个像素的特征是幅度µ和方向Θ。bin和提供给每个bin的值由以下公式表示:
一旦获得每个单元格的9个bin的所有直方图,4个单元格(2×2)重叠单元格,每步为8像素,形成36个特征向量的块:
图9解释了4个单元格(在2×2中)如何以8个像素的步幅重叠单元格,一起形成一个块。
(这一段偷个懒o(╥﹏╥)o)
执行这种归一化是为了减少在同一对象的图像之间的对比度变化的影响。
在计算了LBP纹理特征和HOG形状特征后,得到了每个描述符的特征向量。对于US和MG图像,在表征病变的边缘(形状),利用梯度和方向得到的HOG特征描述了形状。LBP特征是病变的纹理,因为它不同于乳腺组织。因此,通过使用LBP特征,我们可以在像素级别下突出病变的纹理特征。图10为生成的HOG图像,其中可以看到病变获得的纹理。
图9.说明4个单元(在2×2中)如何以8像素的步幅重叠单元,形成一个块。
图10. (a)从US图像中获得的ROI图像,(b)生成了(a)的HOG图像,其中可以看到病变的纹理。
2.2.4. Principal Component Analysis
根据设计的系统的框图(图3),如果描述符HOG和LBP获得的特征组是冗余的,那么它们可能会影响分类过程。我们建议使用主成分分析(PCA)将一个连接的向量减少到199个新组件。下面,我们将解释PCA技术及其实现。
PCA是一种无监督降维技术,它将数据集转换为一个新的更小的数据集,称为正交分量(向量),保持原始数据集的基本属性。主成分分析的目标是找到表示给定数据中最大方差方向的空间据[43,44]。
要将PCA技术应用于数据集,应该执行以下操作。首先,将计算出其平均值:
利用这些数据,可以确定协方差矩阵。协方差矩阵是一个方阵,其中变量的方差在对角线上,而非对角线元素则由所有可能的变量对之间存在的协方差组成。这个矩阵是对称的。
如果矩阵中的协方差值为正,则表示两个变量之间存在正相关,而负值表示负相关;如果该值等于零,则它们不相关,并且在统计上是独立的(对于正态分布)。
这相当于以下内容:
利用协方差矩阵,可以找到特征向量(方向)和特征值(幅度)。为了找到一个矩阵的特征值和特征向量,让我们执行以下步骤。
通过求解以下行列式,计算出该矩阵的特征方程:
找到了上一步得到的特征多项式的根。这些根表示该矩阵的特征值:
计算了每个特征值的特征向量。为此,每个特征值应求解以下方程组:
然后,通过只保留那些代表大部分方差的轴(维度),丢弃所有其他的轴来获得降维。PCA空间由k个主成分组成,其中PCA空间的第一个主成分表示数据的最大方差的方向,第二个主成分表示第二大方差,以此类推。
由于HOG和LBP描述符的特征向量具有冗余分量,在将这两个向量连接起来后,对其应用PCA技术,最终得到199个分量(新特征)。PCA技术表示具有最小维数的特征,而不丢失它们的值属性,从而产生了可以在分类阶段使用的最重要的信息。图11说明所选择的包含数据中最多信息的特征的数量。这些部分能够表示HOG和ULBP的特性。
图11.PCA成分在HOG和ULBP特征选择中的方差依赖性。
在该系统中,使用了不同的手动提取的特征。我们将在下面解释这些特性。
2.2.5. Shape Features
在所提出的方法中,我们使用了BI-RADS所考虑的特征,通过描述感知特征来确定病变是恶性的还是良性的。
图12中的样本分类显示,良性肿块为圆形,以边界边缘表示,其密度为脂肪。相反,推测恶性病变的形状不规则,其密度较高。这些特征是很重要的,因为本研究使用它们来获得手动类型的特征,并支持专家在诊断过程中观察到的内容。对这些特征的描述如下:
图12.基于BI-RADS医学分类算法的质量感知描述
2.3. Feature Selection
根据图3所示的设计系统方案,在获得2123个混合特征(深度学习、HOG、LBP等)的向量后,此时将执行选择过程。本研究采用了基于遗传算法和互信息选择算法的两种统计方法。
2.3.1. Genetic Algorithm
特征选择是通过减少待处理特征的数量来降低计算复杂度的关键。此外,该操作可以通过选择最佳特征和消除可能导致错误分类的特征来提高系统性能。采用遗传算法的特征选择是基于一种进化,该进化包括找到最适应环境的特征,即所选的分类器[46–49]的性能。
遗传算法的特征选择如下:
1.初始化;
2.为预测模型中的特定类型给定一个分数;
3.最适应特征的遗传物质的选择作为一个载体。交叉应用,个体给出一部分染色体来创造一个新的个体,而突变是通过随机开关一些特征来应用的。
4.该算法运行一定数量的代(迭代)。最后,根据所选分类器的性能,得到了作为总体中最优成员的特征组。
在设计的系统中,特征的选择执行如下:
1.首先创建一个包含500个个体的随机种群,其中这些个体通过一个二进制字符串表示特征的子集。每个二进制数字(基因)以所描述的方式表示一个给定特征的存在(1)或缺失(0)(见图13a);
2。所选择的分类器(决策树)作为个体的评价者,估计所选特征的准确性。对于交叉验证,他使用的5倍算法用于评估。获得最佳性能的个体将进入下一个迭代;
3.对在前一步中选择的表现最好的个体进行突变和杂交,而那些表现最低的个体则被淘汰。
交叉作业采用两个在评价中表现满意的个体。它们以确定的百分比的比例交换基因。在本研究中为50%,这被指定为一个交叉点。交叉操作如图13b所示。
图13. (a)个体(基因)的表示;(b)交叉操作的说明;(c)突变操作。
该突变是通过随机改变个体的染色体来进行的。图13c解释了突变操作。
在这两种操作之后,利用适应度(精度)准则由估计器评估构成新群体的新个体。这个过程在每次迭代中进行重复,从评估开始,提高个体的适应度,直到一个保持相同的精度值的迭代,这是该过程的停止条件(见表2)。这个过程的结果是找到的二进制向量,它表示值为1的最佳特征。
本研究中的进化算法如下:
其中,µ为为下一代要选择的个体数,λ为每一代要生育的子女数。对该算法进行了35次评价。在每次评估中,我们都看到了一些特性发生了变化,但不是全部。我们可以看到(表2),由分类器获得的准确性在所有情况下都没有显著变化。
2.3.2. Mutual Information
互信息是基于香农熵的,它度量了两个随机变量(X,Y)[50–52]之间的依赖性或互信息。它测量了通过观察另一个变量而获得的关于一个随机变量的信息量;换句话说,它通过考虑另一个变量,决定了我们对一个变量能了解多少。
在机器学习中,互信息测量一个特征的信息(即是否存在该特征)在多大程度上有助于对Y做出正确的预测。
两个变量之间的互信息为非负值。如果两个随机变量是独立的,则等于零,值越高表示依赖性越大。下面的公式给出了熵(即香农的)信息:
其中I(X;Y)是互信息,H (Y)是Y的熵,H(Y | X)是给定X的Y的条件熵。我们可以计算如下:
因此,存在联合概率(两件事同时发生的概率)和边际概率(只有一个发生的概率);这两个和确保我们包括所有可能的变量组合。
然后对这组新的特征进行评估,以获得所有获得的特征中的MI,保证选择信息最丰富的数据。[53]的研究提出了一个K-Nearest Neighbor分类器,使用所有特征之间的切比雪夫距离:
应用式(35)后,创建一个包含所有处理特征中每个特征的值MI的向量。在这项工作中,我们只选择了26个信息最丰富的特征,而丢弃了其他MI值较低的特征。
2.3.3. Random Undersampling
在CAD系统的开发中所看到的一个主要问题是用于机器学习模型开发的数据集中的样本数量不平衡。当在单个类中拥有更多数量的样本时,就会出现一个问题。在分类阶段应用这种不平衡类,数据数量较多的类可以有利于或有偏预测,另一方面,分类器不能很好地预测少数类。
实际上,该模型需要正确地对这些模式进行分类或学习。为此,我们需要针对所有类的类似量的数据。有几种技术可以解决这个问题。在本研究中,采用了随机欠抽样(RUS)程序,即从大多数类别中随机剔除样本,以具有相似和平衡的样本数量,使模型的预测准确,因为没有类别有利于[54]。
2.4. Classifiers
在获得每种类型图像的最佳特征并将两者融合后,使用三种不同的分类器: XGBoost、AdaBoost和MLP来确定类别,从而预测每个病变的良性或恶性。
2.4.1. XGBoost
极端梯度增强(XGBoost)是一种分布式的、可伸缩的梯度增强决策树(GBDT)。它加强了并行树,并应用于回归问题和分类。XGBoost包括有监督的机器学习等概念,它使用带有特征的数据集来预测标签。决策树是基于预测一个标签,通过评估其他真假问题树,并估计评估做出正确决策的概率所需的最小问题数[55,56]。
梯度增强决策树(GBDT)集成学习算法结合了几种机器学习算法,获得了一个更好的模型。该概念被形式化为一个目标函数上的梯度下降算法。梯度增强为下一个模型设置特定的结果,以最小化误差。预测结果是基于误差梯度进行预测的。对于一个具有x个示例和y个特征的数据集D =(xi,yi),它使用K个可加性函数来预测输出:
其中,预测为预测每个数据点f t(xi)输出的K棵树的总和。每棵新树都纠正了前一棵树的错误,从而得出我们的目标如下:
其中,l是度量预测yˆi和目标yi之间之差的损失函数,而Ω惩罚了模型的复杂性。
2.4.2. AdaBoost
与此方法相关的算法改变了投票的权值,解决了第一个推进算法的许多实际问题。它们的基本原理是基于几个分类器的使用,在这种情况下,是决策树,并将它们组合起来创建一个强分类器[57,58]。
在初始设置权重D (i)和设置D (i) = 1/N后,我们通过将每个样本除以样本数量,为所有样本分配相同的权重值,这些样本具有同等的重要性。然后,进行t型训练。接下来,使用以下方程式计算错误率:
我们使用总误差来确定每个分类器如何拟合前一个分类器的数据,因为它将被依次调整;这执行自适应增强,即最后一个模型试图纠正第一个错误,直到对完整数据集的训练被正确预测或达到分类器的最大数量:
然后,更新样本权重:
经过多次循环,得到弱分类器,并形成强分类器:
2.4.3. Multilayer Perceptron
多层感知器(MLP)试图模拟人类大脑如何在计算机[59]中处理信息。它包含几个层,通常固定为三个层:输入层、隐藏层和输出层。因此,一个感知器的一般结构被描述如下。首先,它接收n个特征作为输入,其中x = {x1,x2,……,xn},n个值表示特征的向量维数。然后,将这些特征与权值w相关,并使用反向传播算法[60]进行更新。其想法是为了获得一个调节每个特性的值。最后,将这些特征输入到一个激活函数中,以产生感知器的输出。该功能的描述如下:
其中,f(·)为激活函数,w为要更新的权重,x为所评估的特征。由于激活函数的权重和输出被更新,输入数据应该分开(即,以二进制类分类)。
2.5. Algorithm Summary
让我们以提取MG和US图像特征的算法的形式来解释在DBFS_GMI CAD系统中使用的所有提出的和提出的程序。该CAD系统包括四个主要阶段: (a)预处理、(b)手工和深度学习特征提取、(c)特征融合和(d)分类。在第一阶段,根据医学图像的性质,去除伪影;对于超声和MG图像,医生应该手动分割ROI。首先,对MG图像进行直方图均衡化增强,然后利用中值滤波器、Suzuki-Abe算法和阈值化方法,得到二值图像。然后,我们使用边界框算法提取ROI。在第二阶段,使用方程(1)-(30)提取形状和纹理特征。最后,通过所选的CNN架构对ROI图像进行处理,并对其特征进行以下步骤的连接。在第三阶段(特征融合)中,利用遗传和互信息算法选择MG和US特征。所发现的化合物特征(公式(31)-(35))用于类分离。最后,在分类阶段使用三种不同的分类器对融合特征的良恶性病变进行分类。算法1给出了这两组图像的上述过程的细节。
3. Results
3.1. Experimental Setup
3.2. Metrics
评估阶段是至关重要的,因为它是我们如何观察我们的诊断模型的性能。本研究使用了公认的和常用的乳腺癌筛查终点。这些评价参数分别为准确性、精密度、特异性、灵敏度和f1-评分。这些指标是通过混淆矩阵获得的,其中提供的参数为真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)[54,64]。真阳性(TP):此时实际数据点为1(True),预测也为1(True);预测是正确的。真阴性(TN):此时实际数据点为0(False),预测也为0(False);预测是正确的。假阳性(FP):其中实际数据点为0(False),但预测显示为1(True);也就是说,预测是错误的。假阴性(FN):其中实际数据点表示为1(True),但预测为0(False);预测不正确。精度值度量在所有评估元素上的正确预测的总数;也就是说,它告诉我们系统正确评估的百分比:
3.3. Evaluation Using BUSI Ultrasound Dataset
在执行遗传算法时,我们指出以下特征是执行分类的最优特征。
从表3中可以看出,遗传和互信息算法选择了几个深度类型的特征,例如特征深度23和特征深度80。此外,他们还确定了HOG和LBP的特征,如HOGLBPFaeture17。此外,形状特征,如偏心度和圆度,与良性和恶性类型病变的分类相关。
二进制分类(恶性和良性)执行(见表4)使用遗传和互信息特征选择算法,以及通过应用IBA度量,因为超声数据集,只有大约一半的恶性类的图像相比良性。
图14显示了使用基于互信息的算法从美国数据库中进行特征选择时所获得的特征。
图14.从超声图像中最具代表性的特征,采用遗传算法和互信息算法的融合特征。
可以看到(图14),有10个特征的圆度最相关或提供最多的信息,遵循深度类型特征,如特征350、特征721等。在本例中,HOG和LBP的特征没有提供相关信息,根据最重要特征的选择进行诊断。
3.4. Evaluation Using Mammography Dataset Mini-DDSM
接下来,让我们给出了为这个数据集获得的二进制标记(恶性和良性)的结果。遗传和互信息选择算法得到了表5中的特征来进行分类。
在图15中,我们可以看到,当使用基于互信息的算法从MG数据库中选择信息最丰富的特征时,所得到的特征。
图15.通过遗传算法和互信息确定。
从图15中可以看出,形状特征是最相关的特征,因为圆度再次排在首位,其次是面积、周长和偏心度。此外,在深度类型特征中,有721、207,HOG-LBP pca简化特征有HUthagare1和HUfthure703。
通过分析表6和图12中该数据集的实验结果,我们可以得出结论,当使用遗传和互信息算法进行特征选择过程时,然后是XGBoost分类器,似乎表现出最好的性能。
3.5. Significance Analysis Using Wilcoxon Test
Wilcoxon检验是通过对两组进行评估而进行的非参数统计检验。每组内的观察结果必须是独立的和同分布的,并且假设两组之间独立[65–68]。以零假设h0作为调查的起点,不被拒绝,除非样本数据似乎表明它是错误的。在这种情况下,参数或所调查的事件之间存在一种关系。
原假设意味着两组之间没有差异(在集中趋势方面),相反,研究假设告诉我们,两组之间存在差异(在集中趋势方面)。
Wilcoxon测试的定义如下:
其中W是组1的n个秩的和;排名是根据所有n个值的合并样本来确定的。
为了确定组间中位数与假设中位数之间的差异是否具有统计学意义,我们将计算出的和W与显著性水平进行比较。通常,显著性水平α为0.05(5%)效果良好。这个显著性水平表明,当没有实际差异时,得出结论认为存在差异的风险为5%。因此,如果基础水平小于α,则决定拒绝原假设(拒绝H0)。在这种情况下,我们可以得出结论,组间中位数和假设的中位数之间的差异具有统计学意义。但是,如果值为>α,则中位数之间的差异没有显著性差异,这意味着不可能拒绝h0。
我们进行了这项测试,因为我们有两组,恶性和良性,其中获得的特征是单独评估的。例如,当我们选择良性病变的圆度特征时,将其作为第一组,我们将恶性圆度特征作为第二组,根据得到的p值得到结果,如表7所示。
我们可以得出结论,通过所采用的选择方法(GA和MI)获得的大多数美国和MG特征证实了对原假设的拒绝。因此,这些特征可以用于诊断分析和决策。
3.6. Evaluating Fusing the US and MG Images
在本节中,我们将给出(在表8中)当使用两个数据库的特征来对其中一个数据库的图像进行分类时所获得的结果。MG和美国特性的融合进行,获得更好的结果比每个数据库单独分析,因为有更多的信息的病变,有更多的数据分析和更多的模式来区分一个数据集和另一个,虽然,循环是一个重要的特征,从遗传算法和互信息算法。
我们使用结果执行随机抽样程序210从每个类,获得特征向量420×2123从总特征(深,猪LBP,面积,周长,偏心,循环),一个我们和一个MG。然后,我们连接向量,获得420×4246在单个数据集。采用遗传信息算法和互信息算法进行特征选择。然后,再次获得2种特征向量,采用互信息算法选择26个特征中的1个,采用遗传算法选择另一种特征,得到20个特征。在图16中,我们可以观察到在该系统的选择阶段使用遗传或互信息算法时提供最重要信息的特征。在本例中,设计的系统采用了两个数据库: MG和US。
图16.采用遗传和互信息算法时,US和MG图像融合的最具代表性特征。
在最后的评估阶段,这些大小为420×46的融合特征向量被分为训练336(80%)和测试84(20%)。与对单独的US或MG数据集进行的评估类似,两类(恶性和良性)的分离是通过上述三个分类器进行的(见表9)。
每个分类器得到的混淆矩阵如图17所示,根据BI-RADS医学分类系统,只对恶性和良性病变进行分类。正常的类别被丢弃了,类似于使用相同的二进制分类的几个作者[12,13]。
图17.对化合物(US + MG)数据集采用特征的遗传和互信息选择算法时的混淆矩阵,使用XGBoost的(a),(b)使用MLP,以及使用AdaBoost分类器的(c)。
3.7. Comparison with State-of-the-Art Systems
在表10中,我们给出了新系统与最近最先进的系统的比较结果。
在文献中,正如我们在简短综述(第1节)中介绍的,有几种很有前途的技术用于使用MG图像和美国图像诊断病变。在[11]中,作者使用了诸如HOG、LBP和GLCM等手工特性。然而,由于我们提取了不同类型的特征并使用了几种分类器,因此我们提出的方法的结果不足。Daoud等人在[13]中使用了超声私人数据库,其中有380种和168种不同类型的特征(纹理和形态学),其中一些可能是冗余的,没有提供相关信息。Jabben等人[14]提出了一个具有相同的BUSI US数据集的系统。他们的方法比我们提出的方法有更好的性能,因为他们实现了一个数据增强策略来平衡每个类的样本数量。相比之下,我们使用RUS技术来平衡类,通过IBA度量ACC测量93%,证明我们设计的方法是一个平衡的方法,保证了竞争性能,而不产生合成样本。在我们看来,数据增强策略可以复制数据,呈现错误的标准结果。在[27]中,作者提出了一个基于bi-rads的系统;然而,他们使用了一个私人数据库,这需要专家的标签。他们的系统采用了高效的netnet,与该系统中使用的DenseNET-201架构相比,这是一个计算更密集的网络。Heenaye等人[15]使用ResnNET-50;然而,他们的系统只使用了深度学习特征。这种方法需要大量的数据来从头开始训练这种架构。相反地,我们的系统采用了迁移学习的方法,并且不需要大量的数据。[17]的研究使用了定制的深度神经结构,其中主要问题是从头开始训练该结构所需的大量数据量。因为他们所使用的数据集包含了一组简化的样本集,所以他们建议使用数据增强法。他们的系统获得了平均准确率的93.2%,低于我们提出的系统。此外,他们的方法是在少量的数据上进行训练的,因此并不能保证他们的体系结构能够提取出正确的特征。在[18]中提出的系统使用了BUSI数据集,其中由于类之间的不平衡,作者通过生成可以复制数据的合成样本来执行数据增强。分析阿尔谢赫的[19]系统,我们可以看到他们的数据集是不平衡的——有1778张恶性图像,1408张良性图像和185张健康图像。在这样的数据集中执行分类过程有利于对前两个类进行分类。对于数据融合,我们的方法是具有竞争力的,因为它可以用于MG数据库和US数据库。[21]中提出的另一种技术与我们提出的系统相比,使用了更少图像的数据集。INBreast和mini-MIAS数据库呈现的图像更少,即使经过增强后,也没有足够的数据来保证必要的图像量。他们的方法只使用了深度学习特征,而没有使用可以提供相关信息的手工特征,如我们在设计的系统中提出的。最后,在[12,20]中提出的系统采用了MIAS乳腺数据集,并使用手工和深度学习策略对MG图像进行分类。手工方法[12]使用基于频率的特征实现了92.16%的准确率,这取决于对ROI图像的正确预处理。此外,深度学习策略[20]采用了几个cnn,最后,一个图卷积网络(GCN)来统一和选择分类的分类特征。然而,这种方法需要高性能的硬件。
在本研究中,在实验测试中,两个数据集[22,24],通常被一些作者在最先进的[12,13,15,17,20],被评估。表10显示了设计的系统与文献中发表的不同方案的性能比较,其中也采用了二进制分类[11-13,15-17,20,21]。不同的系统使用相同的数据集或其子集[12,17,20],展示了出色的性能[11,16,19],尽管一些建议没有提供对其私有数据集的访问。
从表10中可以看出,所提议的系统通过采用轻量级策略,超过了大多数现有系统的评估指标。DBFS_GMI CAD系统的主要目标是适用于两种不同类型的医学成像研究。据我们所知,目前还没有其他系统使用复合数据集(包括MG和US图像),而且在本研究中可以看到,这种新方法可以提高分类的质量。此外,所设计的系统采用了一种新的策略来融合不同类型的特征,以保证病变的分类,为专家提供了第二种意见。
4. Discussion
可以看出,循环特征被遗传算法和互信息选择程序选择,为性能提供最大的信息。在BI-RADS中,肿块分类定义为选择病变是良性还是恶性的特征,因为形状更不均匀,即圆度较低,表明恶性肿瘤的风险较高。相反,如果它有一个规则的形状,它更圆形,表明恶性肿瘤的风险更低。此外,设计的系统依赖于其他形状特征,如偏心或面积,这对分类很重要。特征选择和融合算法还选择了那些深度类型的特征,并选择了HOG和LBP特征。这些特性单独作为分类中的支持,但在合并中消失了,因为它们在数据合并中不是最相关的。最后,使用支持我们的结果的指标,如IBA,并使用随机欠采样等工具,证明了与最先进的技术相比,新系统似乎表现出了最好的性能。与设计的框架相比,对不同系统的分析不考虑像IBA这样的指标。此外,所设计的系统根据基于医学信息的标准来使用信息,其中获得了通常应用的特征,如形状和纹理。大多数系统只获得手工特性。然而,其中一些系统的发展并没有确定病变的ROI。此外,一些作者只使用深度类型的特征,而我们的新系统通过融合概括了来自两个数据集的特征,与只使用来自一个数据集的图像的系统相比,获得了竞争性的结果。
5. Conclusions
这项研究开发了一种新的乳腺癌诊断系统,其中采用了两种医学检查,MG和US图像。设计的混合系统使用CNN架构提取深度学习特征,传统方法执行疾病医学特性的几种手工特征,目的是稍后通过统计标准进行融合。在接下来的阶段,所提出的技术将两项研究的特征连接起来,形成各种特征,可以对两个数据集中的任何一个进行分类,并诊断病变为良性或恶性。在融合阶段,进行深度学习和手工特征分析,采用遗传和互信息选择算法;然后,应用多个分类器(XGBoost、AdaBoost、MLP),从特征中选择最佳信息组。所设计的系统的性能结果是令人满意的,因为为常用的质量指标所获得的百分比与那些从最先进的系统相竞争。这种新的系统可以帮助专科医生对他们诊断的意见获得第二个机会。在未来的研究中,我们计划将设计的融合方法应用于其他医学图像,如MRI、CT或SPECT。