深度学习如何引入先验知识（临床医生的诊断经验）

最新推荐文章于 2025-06-08 16:35:44 发布

Kanny广小隶

最新推荐文章于 2025-06-08 16:35:44 发布

阅读量5.6k

点赞数 13

CC 4.0 BY-SA版权

分类专栏：学习笔记算法学习深度学习

本文链接：https://blog.csdn.net/weixin_41929524/article/details/112493667

深度学习的问题

在使用传统的深度学习网络对病灶进行分割时，如，FCNN, U-Net, Dense U-Net等，网络均只考虑了本身图像上的信息，让网络本身通过大量的图像与label的对应关系，进行深度学习模型的训练。这一系列过程中没有任何人工的干预以及人为的先验信息。当数据量十分巨大时，这种做法往往能够取得非常好的分割效果，但当数据量相对较小时，如很多医学影像数据往往只有几十张精准标注的图像，引入医生本身的解剖学信息往往能够取得更好的分割效果。但问题的难点在于如何将医生的临床知识进行量化表示，并与深度学习的分割相结合。Zheng等人（Anatomically Constrained Deep Learning for Automating Dental CBCT Segmentation and Lesion Detection ）在牙齿的CT图像上，在的Dense U-Net基础上，考虑引入了解剖学的知识——病灶部位附近不会有background，materials不会直接连接骨头。其具体方法以及训练过程下面进行详细阐述。

优化问题

在深度学习分割网络中，我们的优化的目标函数通常为如下形式：
$\sum_{(\mathbf{x}, \mathbf{y}) \in D_{l}} \mathcal{L}\left(\mathbf{y}, p_{\theta}(\mathbf{y} \mid \mathbf{x})\right)$

其中 $D_l$ 为训练集， $p_{\theta}$ 为深度学习模型， $\mathbf{x}$ 为原图， $\mathbf{y}$ 是原图对应的label，两者均为向量，向量的长度为图像像素点的个数。而文章在这里考虑了一个新的得分函数， $f (y)$ ，得分越高表示越符合解剖学的先验知识。为了更好的适用于一组图像，这里考虑了平均意义下的得分函数，也就是对其添加了期望，期望是关于 $p_{\theta}$ 的条件分布下的。此时，目标优化问题变为了：
$\min _{\theta}\left\{ \frac{1}{N} \sum_{(\mathbf{x}, \mathbf{y}) \in D_{l}} \mathcal{L}\left(\mathbf{y}, p_{\theta}(\mathbf{y} \mid \mathbf{x})\right)- \alpha \frac{1}{N} \sum_{\mathbf{x} \in D_{l}} E_{p_{\theta}(\mathbf{y} \mid \mathbf{x})}(f(\mathbf{y})) \right\}$

这里的 $\alpha$ 为tuning parameter。但到这里会发现，上述的目标函数根本无法计算，原因是 $p_{\theta}$ 的维度过高，为像素点个数，因此对应的期望就无法进行求解。文章在这里考虑使用了变分推断的方法，用一个 $q$ 函数来近似 $p_{\theta}$ ，根据标准的变分推断理论，只需使得两者之间的KL散度尽可能小，这里补充一下KL散度的定义：

KL散度（Kullback-Leibler divergence，简称KLD），在讯息系统中称为相对熵（relative entropy），在连续时间序列中称为随机性（randomness），在统计模型推断中称为讯息增益（information gain）。也称讯息散度（information divergence）。

KL散度是两个概率分布 $P$ 和 $Q$ 差别的非对称性的度量，其通常用来度量使用基于 $Q$ 的分布来编码服从 $P$ 的分布的样本所需的额外的平均比特数。典型情况下， $P$ 表示数据的真实分布， $Q$ 表示数据的理论分布、估计的模型分布、或 $P$ 的近似分布。

对于离散随机变量，其概率分布P 和 Q的KL散度可按下式定义为
$D_{\mathrm {KL} }(P\|Q)=-\sum _{i}P(i)\ln {\frac {Q(i)}{P(i)}}.$
等价于
$D_{\mathrm {KL} }(P\|Q)=\sum _{i}P(i)\ln {\frac {P(i)}{Q(i)}}$