论文笔记 DETR

最新推荐文章于 2025-08-05 08:41:01 发布

Plusmile1

最新推荐文章于 2025-08-05 08:41:01 发布

阅读量696

点赞数

CC 4.0 BY-SA版权

文章标签：学习

本文链接：https://blog.csdn.net/qq_29589765/article/details/132951105

DETR提出了一种无需预处理和后处理的端到端目标检测方法，利用Transformer的全局建模能力和集合预测，取代了传统的锚点和NMS机制。文章还探讨了DETR与FasterRCNN的对比以及Transformer的不同层数对性能的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

detr

摘要和引言

2020论文facebook
不需要proposal，不需要基于anchor的先验知识(比如预训练的模型)，也不需要NMS进行筛选，直接端到端不需要后处理
利用transformer的全局建模能力，看成集合预测问题，不会输出很多冗余的框，直接端到端，不需要NMS，简化了训练和部署
NMS:非极大值抑制，抑制掉冗余的框
anchor:滑动窗口，需要手动设计特征并判断提取，会产生大量候选框；直到Faster RCNN出现直接使用RPN网络预测候选框，使用神经网络取代计算特征过程，直接使用神经网络输出anchor是否包含物体，anchor指在不同尺寸的特征图的每个点设置N个不同尺寸的框框。
使用二分图匹配的方式替代冗余的框，解码器时使用了learned object queries，类似anchor了，并行输出检测框
简单！只需支持CNN和transformer即可部署！
同时尝试了分割任务，只需加一个分割头即可
图像通过CNN获取特征，然后拉直送入transformer，encoder进一步学习全局信息，每一个点与其他的点就有交互了，decoder出一系列预测框；其中transformer中还需要与object queries（限定出多少框，文中为100个框）进行交互；最后使用二分图匹配计算loss。取决于物体数量，选出对应的独一无二的几个框后，再正常计算类别loss和bandingbox的loss。
推理时前面相同，在生成一系列预测框后，卡一个输出的置信度，比如大于0.7的，被当作前景物体保留下来
对大物体表现非常好，小物体上比较差，但之后deformable DETR出现，通过多尺度特征，解决了小物体问题，并解决了训练太慢的问题

详细模型

基于集合的目标函数:
- 输出为固定的集合，输出N个框，然后进行二分图匹配，匈牙利算法是解决二分图匹配的最好算法
- 使用scipy中的自带函数输入花费矩阵，输出最优排列，即为每个人分配最擅长的工作，最后的总花费最小，在本问题就是100个预测框与ground truth的几个框组成花费矩阵。
- 花费就是为loss，使用函数计算分类loss和边界框loss组成花费，分类loss和边界框loss在同样的取值空间中，边界框loss没有只使用L1loss，而是加上了IOUloss，一起计算来减少框的大小对loss的影响
- 这与proposal和anchor一个原理，不过强行一对一匹配；先算出最优匹配再算loss
DETR的结构
- object queries:一个可学习的position embedding
- FFN:全连接层