DETR、conditional DETR、Deformable DETR

DETR是将transformer机制应用到目标检测领域的算法模型。其主要思想是利用transformer的encoder-decoder架构,利用注意力机制来实现端到端获得目标检测的结果。

DETR

在这里插入图片描述
如图所示为DETR模型的结构,其主要由backbone,transformer block,prediction heads三部分组成。
backbone
backbone作为输入图像的初步特征提取,主要由卷积神经网络如(resnet50)完成,对于输入图像(B×3×H×W),其中B为batch_size,H,W为图像的宽高。进攻CNN提取后的特征再通过一个全连接层得到的特征图(B×HW×D,D为超参数,表示隐藏层的维度)。
transformer block
DETR使用了transformer的encoder与decoder某块,encoder部分,backbone提取得到的特征加上pos_embedding(B×HW×D)作为encoder的query,values,keys,这里与transformer中encoder的自注意力机制一样。decoder模块包括自注意力机制与交叉注意力机制两部分,这里,DETR提出了一个object query的概念(N*D,其中N为一个超参数,论文中取的100),这里的object query一定程度上起到了anchor的作用,它表示N个可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值