DETR是将transformer机制应用到目标检测领域的算法模型。其主要思想是利用transformer的encoder-decoder架构,利用注意力机制来实现端到端获得目标检测的结果。
DETR
如图所示为DETR模型的结构,其主要由backbone,transformer block,prediction heads三部分组成。
backbone
backbone作为输入图像的初步特征提取,主要由卷积神经网络如(resnet50)完成,对于输入图像(B×3×H×W),其中B为batch_size,H,W为图像的宽高。进攻CNN提取后的特征再通过一个全连接层得到的特征图(B×HW×D,D为超参数,表示隐藏层的维度)。
transformer block
DETR使用了transformer的encoder与decoder某块,encoder部分,backbone提取得到的特征加上pos_embedding(B×HW×D)作为encoder的query,values,keys,这里与transformer中encoder的自注意力机制一样。decoder模块包括自注意力机制与交叉注意力机制两部分,这里,DETR提出了一个object query的概念(N*D,其中N为一个超参数,论文中取的100),这里的object query一定程度上起到了anchor的作用,它表示N个可