论文:DS-TransUNet 医学图像分割

DS-TransUNet是一种用于医学图像分割的新型模型,结合了Swin Transformer和U-Net结构。通过双重Swin Transformer在不同尺度上捕获特征,同时使用Transformer交互融合模块(TIF)实现多尺度特征的有效融合,提高了分割性能。该模型在息肉分割、病变分割等医学图像任务中表现出优越的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

DS-TransUNet: Dual Swin Transformer U-Net for Medical Image Segmentation

论文:https://arxiv.org/abs/2106.06716

Swin Transformer更多相关阅读

更多 生物医学图像处理


Introduction

医学图像分割是一个重要而又具有挑战性的研究问题,涉及到临床应用中的许多常见任务,如息肉分割、病变分割、细胞分割等。而医学图像分割是医学图像处理与分析领域中一个复杂而关键的环节,在计算机辅助临床诊断系统中起着重要的作用。其目的是通过半自动或自动的过程对医学图像中具有特殊意义的部分进行分割,提取相关特征,为临床诊断和病理研究提供可靠的依据,协助医生做出更准确的诊断。

随着U-Net的普及,许多新颖的模型被提出,如UNet++、Res-UNet、Attention U-Net、DenseUNet、R2U-Net、KiU-Net和UNet 3+,它们都是专为医学图像分割而设计的,并具有表达性能。


Encoder

在模型的整体结构中,作者使用U型架构。对于编码器,使用 Swin Transformer 提取特征。如下图所示,将输入的医学图像首先分割成 H s × H s \frac{H}{s}×\frac{H}{s} sH×sH 的非重叠patch,其中s为patch的大小。每个patch被当作一个“ token ”,通过线性嵌入层投射到维度C。由于patch是通过卷积运算得到的,所以这里不需要额外的位置信息。

这些 patch token 被正式送入Swin Transformer,它包含四个阶段,每个阶段包含一定数量的 Swin Transformer Block,包括窗口MSA (W-MSA)和移动窗口MSA (SW-MSA)。为了产生 层次表示token 的数量将随着网络的深入而减少;在前三个阶段,输入特征经过 Swin Transformer Block 变换后经过 patch merge layer 降低特征分辨率,增加维数。具体来说, patch merge layer相邻2×2的每一组patch的特征串联起来,然后对所连接的通道维度特征应用一个线性层。这将减少 token 的数量2× 2 = 4,分辨率的2×下采样,输出维数增加2。因此,四个阶段的输出分辨率分别为 H s × H s \frac{H}{s}×\frac{H}{s} sH×sH H 2 s × H 2 s \frac{H}{2s}×\frac{H}{2s} 2sH×2sH H 4 s × H 4 s \frac{H}{4s}×\frac{H}{4s} 4sH×4sH H 8 s × H 8 s \frac{H}{8s}×\frac{H}{8s} 8sH×8sH ,维度分别为 C 、 2 C 、 4 C 和 8 C C、2C、4C和8C C2C4C8C


Decoder

如下图所示,解码器主要由三个阶段组成。与U-Net及其变体不同,模型的每个阶段不仅包括上采样(最近上采样)和跳跃连接,而且还包括 Swin Transformer Block 。具体来说,编码器中第4阶段的输出作为解码器的初始输入。在解码器的每一阶段,将输入特征向上采样2次,然后与同一阶段编码器对应的跳跃连接特征图连接。在那之后,输出被送入 Swin Transformer Block 。我们选择这个设计是因为

  1. 它可以充分利用编码器和上采样的特性
  2. 它可以在解码器中建立长期依赖和全局上下文交互,以获得更好的解码性能。

经过以上三个阶段,我们可以得到分辨率为 H 4 × H 4 \frac{H}{4}×\frac{H}{4} 4H×4H 的输出。直接使用4次上采样算子会丢失很多浅层特征,因此,我们通过串联两个块对输入图像进行降采样,得到了分辨率为 H × W H×W H×W H 2 × H 2 \frac{H}{2}×\frac{H}{2} 2H×2H的低阶特征,其中每个块包含一个3×3卷积层,一组归一化层和ReLU。所有这些输出特征将被用来通过跳跃连接得到最终的掩模预测。

在这里插入图片描述


多尺度特征表示

虽然 self-attention 可以有效地建立 patches 之间的长期依赖关系,但对 patch 进行划分时忽略了每个 patch 内部像素级的内在结构特征,从而导致边缘、线等浅层特征信息的丢失大尺度可以更好地捕获

### 关于Swin Transformer与U-Net结合的研究 Swin Transformer作为一种高效的视觉模型,在医学图像分割领域得到了广泛应用。通过将其与经典的U-Net架构相结合,可以有效提升多器官分割任务的性能[^1]。这种组合方式充分利用了Swin Transformer捕捉全局上下文的能力以及U-Net在局部细节上的优势。 具体而言,Swin-Unet的设计使得该网络能够在不同尺度下融合局部和全局信息,这对于处理复杂的医学图像尤为重要。此外,一些研究还提出了改进版本,例如Dual Swin Transformer U-Net (DS-TransUNET),它引入了一种新的特征交互模块(TIF),进一步增强了跨模态特征的学习能力[^4]。 对于希望深入了解这一领域的研究人员来说,可以从以下几个方面入手: 1. **原始实现与代码资源**: 可以参考官方GitHub仓库中的实现,了解如何基于现有框架构建自己的模型[^2]。 2. **环境配置指南**: 如果计划复现相关工作,则需按照文档说明完成必要的依赖库安装过程[^3]。 以下是部分推荐的相关学术论文和技术资料链接供查阅: - Zhang et al., "Swin UNET: Unifying Cross-Scale Representations for Biomedical Image Segmentation", arXiv preprint, 2021. - Chen W., Fu J., Yu L., Li H., & Huang T.S., “DS-TransUNet: Dual Swin Transformer U-Net For Medical Image Segmentation”, MICCAI Workshop on Deep Learning Techniques for Computational Pathology and Clinical Applications, 2022. ```python import torch from swin_unet import SwinUnet model = SwinUnet(img_size=224, num_classes=9).cuda() input_tensor = torch.randn(1, 3, 224, 224).cuda() output = model(input_tensor) print(output.shape) # Expected output shape should be [batch_size, num_classes, height, width] ```
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值