端对端的transformer目标检测——论文总结笔记

一、主要讲了什么?

本篇论文提出了一种将目标检测视为直接集预测问题的新方法。有效地消除了许多手工设计的组件,如非最大抑制过程或锚生成。新框架的主要组成部分,称为检测变压器或DETR,是一个基于集合的全局损失,通过二部匹配强制进行唯一预测,以及一个变压器编码器-解码器架构。给定一组固定的小学习对象查询,DETR对对象和全局图像上下文的关系进行推理,以直接并行输出最终的预测集。新模型在概念上很简单,不像许多其他现代探测器那样需要专门的库。在具有挑战性的COCO对象检测数据集上,DETR展示了与成熟且高度优化的Faster R-CNN基线相当的准确性和运行时性能。此外,DETR可以很容易地推广到统一的全视分割,它明显优于竞争基线。

二、主要贡献

1、集合预测

DETR通过集合预测的方式,避免了重复预测的问题,不需要使用NMS来消除多重检测。

2、Transformer架构

引入了Transformer自注意力机制,能够全局建模图像中的对象关系,使得物体检测更加高效。

3、简化流程

不依赖于锚点或提案生成,减少了手工设计组件的需求,可以直接从图像生成物体边界框和类别标签。

4、泛化能力强

DETR不仅适用于物体检测任务,还可以扩展到全景分割任务,通过添加简单的分割头,达到了在全景分割中的竞争性表现。

三、这些贡献是怎么做到的?

1、 集合预测与消除重复检测:

DETR 通过将物体检测视为一个集合预测问题,使用双边匹配损失,确保每个预测结果(类别和边界框)与唯一的真实对象相匹配。

这种匹配通过匈牙利算法(Hungarian Algorithm)实现,在训练中找到最佳的一对一匹配,使得每个预测框都有一个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值