file-type

OW-DETR:开放世界目标检测的Transformer模型

PDF文件

18.45MB | 更新于2025-01-16 | 103 浏览量 | 0 下载量 举报 1 收藏
download 立即下载
"OW-DETR: 一种用于开放世界目标检测的Transformer模型" 开放世界目标检测(OW-DETR)是计算机视觉领域的一个重要研究方向,其目标是在检测已知对象的同时,还能识别和处理未知类别的物体。与传统目标检测任务不同,OWOD需要模型具备在不断学习新类别的过程中,对未知对象进行有效区分的能力。OW-DETR是针对这一挑战设计的一种创新的端到端Transformer架构。 OW-DETR由三个关键组件构成:基于注意力的伪标签、新颖类别分类和目标得分。这些组件协同工作,以解决OWOD的三大难题:生成未知对象的高质量候选框、区分未知对象和背景,以及处理多样化的未知类别。 1. 基于注意力的伪标签:这个组件利用Transformer的自注意力机制,生成对未知类别的初步识别,帮助模型在没有先验知识的情况下学习识别新的类别。 2. 新颖类别分类:这部分设计用于在训练过程中逐步学习新的类别,使得模型能够随着训练的进行,不断扩大其识别范围。 3. 目标得分:通过这一机制,OW-DETR能够更准确地评估每个检测框是否属于未知类别,从而减少误报和漏报。 OW-DETR的特点在于它编码了多尺度上下文信息,减少了归纳偏差,使得模型能够有效地从已知类别中学习并转移到未知类别。这种能力对于区分复杂场景中的未知对象和背景至关重要。 在MS-COCO和PASCAL VOC这两个基准数据集上进行的实验表明,OW-DETR在未知召回率上相比最近的方法ORE有显著提升,绝对增益在1.8%至3.3%之间。在增量目标检测场景下,OW-DETR在所有设置中都超越了当前的最优方法。 为了便于研究,作者提供了OW-DETR的开源代码,位于https://github.com/akshitac8/OW-DETR。这使得其他研究人员和开发者可以进一步研究和改进这种开放世界目标检测的Transformer模型,推动相关领域的进步。

相关推荐