学习论文:Bridging the Gap Between Detection and Tracking: A Unified Approach
动机:本文希望探索一种在几乎任何先进的目标检测器上直接构建跟踪器的一般框架。
提出该动机的原因有3个方面:1)检测算法是专门在复杂场景中精确定位和区分对象的,这可能导致更准确和稳健的跟踪器。
2)重用检测模型可以减少跟踪中的重复工作,因此我们可以将更多精力放在跟踪特定的问题上,例如目标域适应和时间依赖性。
3)这种框架有可能促成多任务模型,即联合检测和跟踪视觉物体, 这接近行业的需求。
需要解决的问题:1)目标检测器是特定于类别的,而跟踪器是与类别无关的,即应该跟踪任意移动的对象。2)目标检测器无法区分类内实例,但这是跟踪器的一项关键能力。3)时间线索对于稳定的长期追踪很重要,而在静止图像检测器中不考虑它们。
一、框架架构
我们将跟踪看作为one-shot目标检测和few-shot实例分类的联合任务。前者是类等级子任务找到所有类似目标候选框,而后者是一种实例级子任务,它从干扰物中区分出目标。
1、target-guidance module
提出了一种用于one-shot目标检测的目标指导模块,该模块基于一个基础检测器,该基础检测器由骨干网络和几个顶层组成(即检测头部和optional proposal以及ROI池化层)。该模块对目标和搜索区域特征及其在骨干网中的交互进行编码,将其作为指导,在一小套类似目标的物体上致力于基础检测器。相当于让网络更关注于与目标相关的instance。
该模块首先对目标特征执行ROI池化,然后跟随卷积层以将输出转换为大小C×1×1的调制器,其中C为特征通道的数量;然后,调制器用于重新加权搜索图像的特征通道。将原始和调制的搜索区域特征以及上采样的目标全局表示进行级联,然后馈入1×1卷积层中以进行合并特征。以这种方式,骨干网对目标和搜索区域特征及其相互作用进行编码,为后续检测提供足够的信息。
2、Model-Agnostic Meta-Learning(MAML) algorithm( an instance classifier)
为了解决在小样本上直接训练分类器导致的过拟合问题。MAML可以学习敏感的初始参数,能够快速适应新任务,仅须少量样本和较少的训练迭代次。简言之,它学会了微调。我们发现检测器的分类头部对于实例分类器来说是一个很好的初始化,因此我们用具有相同结构的元层 meta layer替换该头部,并学会从大型训练数据中针对不同目标快速进行微调。 注意以这种方式,只需要进行一次引导检测就可以过滤出类间和类内的干扰物。
如图,采用三元组作为训练,exemplar图像代表目标指导,告诉检测器“要看的地方”。support图像用于微调检测器的分类头,我们希望更新后的模型在query图像上能表现良好。Inner optimization optimization中,support image上计算的loss用来微调meta-layers即detector heads的参数,然后将meta-loss的梯度用于更新outer optimization optimization。
指导检测器,作为内部循环优化,在support集(zb,sb)上经过N步梯度更新获得θN,即更新检测器头部参数。
外部优化循环
θ0代表检测器头部层的参数,直接用检测器的损失去优化θ0。其中在内部和外部优化循环中更新θ0,而检测器的其他参数仅在外部优化循环中更新。
在第一帧,我们使用随机水平翻转和随机裁剪生成16个训练样本,并用N1=5次训练迭代微调探测器的头部。对于其它帧,每帧采集一个训练样本,在更新过程中,我们使用Nr=1的训练迭代去调整模型。
在线跟踪中将之前帧的检测结果作为训练样本在线更新detector head的参数。
3、Anchored Updating
问题:由于元学习器的离线训练阶段无法确保持续学习的泛化能力,因此仍然存在过度拟合的风险。
解决:受锚损失的激发,引入锚定更新策略以减轻过拟合。
当在步骤t微调时,更新参数θt被定义为从最后一个监测点θt-1和从最初参数θ0更新的组成。