统一检测和分割任务！港科大&清华&IDEA提出基于Transformer统一目标检测与分割框架Mask DINO，效果SOTA！...

最新推荐文章于 2025-04-08 01:00:00 发布

我爱计算机视觉

最新推荐文章于 2025-04-08 01:00:00 发布

阅读量2.7k

点赞数 1

CC 4.0 BY-SA版权

文章标签：大数据算法 python 计算机视觉机器学习

本文链接：https://blog.csdn.net/moxibingdao/article/details/125669900

港科大、清华和IDEA合作提出的Mask DINO框架，基于Transformer，统一了目标检测与分割任务，效果超越SOTA。论文及开源代码已发布，实现在实例分割、全景分割和语义分割上取得最佳结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关注公众号，发现CV技术之美

本篇分享论文『Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation』，统一了检测和分割任务！港科大&清华&IDEA提出基于Transformer的统一目标检测与分割框架Mask DINO，效果SOTA！代码已开源！

详细信息如下：

论文链接：https://arxiv.org/abs/2206.02777[1]
项目链接：https://github.com/IDEACVR/MaskDINO[2]

摘要

本文提出了一种统一的目标检测和分割框架Mask-DINO。Mask DINO通过添加一个支持所有图像分割任务（实例、全景和语义）的mask预测分支，扩展了DINO（DETR with Improved Denoising Anchor Boxes）。它利用DINO的查询嵌入对高分辨率像素嵌入图进行点积来预测一组二进制mask。

DINO中的一些关键组件通过共享架构和训练过程进行了扩展，以进行分割任务。Mask DINO简单、高效、可扩展，并且受益于联合大规模检测和分割数据集。实验表明，Mask-DINO在ResNet-50主干和带有SwinL主干的预训练模型上都显著优于所有现有的专门分割方法。

此外，Mask DINO在实例分割（COCO上为54.5 AP）、全景分割（COCO上为59.4 PQ）和语义分割（ADE20K上为60.8 mIoU）方面建立了迄今为止最好的结果。

Motivation

目标检测和图像分割是计算机视觉的基本任务。这两项任务都与定位图像中感兴趣的对象有关，但具有不同的focus级别。目标检测是定位感兴趣的对象并预测其边界框和类别标签，而图像分割则侧重于不同语义的像素级分组。此外，图像分割包括各种任务，包括实例分割、全景分割和关于不同语义的语义分割。

为这些任务开发的基于卷积的经典算法具有专门的结构，如用于目标检测的Faster RCNN，用于实例分割的Mask RCNN，以及用于语义分割的FCN，取得了显著的进步。虽然这些方法在概念上简单有效，但它们是为专门的任务定制的，并且缺乏处理其他任务的泛化能力。目前也催生出了一些能够联合处理多个任务的模型，到目前为止，HTC++仍然是COCO目标检测和实例分割排行榜上SOTA模型广泛使用的目标检测和实例分割方法。

随着进入基于Transformer的检测器的新时代，检测和分割任务会分化为不同的模型。DETR首先将Transformer引入到目标检测中。DETR是一种基于端到端查询的目标检测器，它采用一个具有二部匹配的集合预测目标。虽然DETR同时处理目标检测和全景分割任务，但其分割性能仍低于经典的分割模型。为了提高基于查询的模型的检测和分割性能，研究人员开发了用于目标检测、实例分割、全景分割和语义分割的专用模型。

在改进目标检测的努力中，DINO利用了DAB-DETR的动态锚定框公式和DN-DETR的查询去噪训练，进一步开发了对比去噪训练、混合查询选择，通过这两种方法来加速训练和提高检测性能。因此，DINO作为一个类似DETR的模型，首次在COCO目标检测排行榜上获得SOTA结果。

类似地，为了改进图像分割，MaskFormer和Mask2Former提出使用基于查询的Transformer架构来统一不同的图像分割任务，以执行mask分类。这些方法在多个分割任务上取得了显著的性能改进。然而，检测和分割模型仍然存在显著差异，这阻碍了检测和分割任务之间的任务和数据协作。例如，最先进的基于查询的实例分割模型Mask2Former仍然落后于基于HTC++和Swin-V2-G的经典模型。

解释这种性能差距的一个原因是，基于HTC的模型是在大规模检测数据集（即Objects365）上预训练的，但Mask2Former不能利用检测数据进行预训练。虽然作者相信检测和分割可以在一个统一的体系结构中相互帮助，但简单地使用DINO进行分割和使用Mask2Former进行检测的结果表明，它们不能很好地完成其他任务。此外，多任务训练甚至会影响原始任务的性能。

这自然会导致两个问题：1