论文笔记Distractor-aware Siamese Networks for Visual Object Tracking
1. 标题及来源
Distractor-aware Siamese Networks for Visual Object Tracking, ECCV_2018
2. 阅读目的
无
3. 领域
long term object tracking
4. 拟解决的问题
1. 大多数基于孪生网络的跟踪方法只能区分前景,当背景聚集在一起时,性能无法保证
2. 数据分布不平衡,当跟踪新类别时,定位框不准确
3. 孪生网络不能在线更新参数,当出现巨大外貌变化时,会出现问题
4. 最近的孪生网络执行局部搜索策略,不能处理full occlusion和out-of-view
5. 提出的方法
针对问题1:在脱机训练时生成更多的语义对(semantics pairs),然后在online tracking时显式抑制这些判别器
针对问题2:将ImageNet检测数据集和COCO检测数据集中生成的图片对用来训练,同时使用数据增强技术;在训练过程中加入semantic negative pairs(和跟踪目标不相同的对象,可能来自同一视频序列,也可能来自不同视频序列),加入这个可以防止在full occusion和out-of-view时发生类漂移
针对问题3:加入distractor-aware module
针对问题4:将局部搜素策略替换为local-to-global search strategy
6. 结果
6.1 VOT的实验结果
在VOT2016数据集上,该论文的基础版本SiamRPN的效果是0.3441,与ECO(0.375)之间有一些差距。而ECO的效果比DaSiamRPN少了3.6%。DaSiamRPN远超过其它算法。同时该算法的速度是160FPS,是C-COT的500倍,是ECO的20倍
在VOT2017数据集上,DaSiamRPN以0.326排名第一
从表中可以发现,DaSiamRPN的效果在所有的算法中,效果基本上是最好的。但是也存在一些问题,比如OTB-2015数据集中,DP的效果相对落后其它算法;在VOT2016数据集中,在鲁棒性方面,效果略低于ECO算法,在VOT-2017中,该算法的鲁棒性相对更差
6.2 UAV的实验结果
UAV数据集:由低空无人机拍摄的视频组成的数据集
从图中可以发现,在long-term的视频跟踪中,DaSiamRPN的AUC分数是0.617,远超过其它算法的得分
6.3 OTB的实验结果
从表中可以发现,在OTB-2015数据集中,DaSiamRPN的OP(mean overlap precision)是最高的,但是它的DP(mean distance precision)相对较差,只能排在第四,与第一名差了3%。
6.4 消融实验
从表中可以发现:
- 当使用检测数据中的正样本可以将EAO从0.344提高到0.368
- 当训练时加入负样本,预测时加入distractor-aware learning,两者在VOT2016数据集上都能将算法的效果提升2%左右,在UAV20L数据集上都能提升1%-2%
- 当在算法中加入long-term tracking module模块时,AUC从49.8%提升到了61.7%
7. 改进&存在的问题
1. 当背景复杂时,会产生类漂移现象,如下图所示。当继续预测时,会偏差得越来越多
2. 当背景变化十分频繁,导致后面帧的背景与第一帧不同,这种情况下该算法可能无效,因为该算法会利用背景信息提升算法的判别能力,但是当背景信息变化非常频繁时,这种算法可能会无效。
3. 当进行long-term视频跟踪时,若长时间未出现目标,直到最后快结束的时候才出现目标,会延长搜索时间,降低跟踪器的速度。因为使用了local-to-global的搜索策略
4. 当出现遮挡或者相似物干扰问题时,会产生类漂移
8. 可借鉴的点
1. 将背景作为一种信息,进行判别
2. 使用不同种类正样本和含有目标(非target)的负样本进行训练,学习强有力的特征表达
non-semantic: not real object, just background
3. distractor-aware module
- 对每帧都产生 17 ∗ 17 ∗ 5 17*17*5 17∗17∗5个proposal
- 使用NMS减少多余的proposal,
- 将分数最高的作为Zt,剩下的如果大于设定的阈值,就会被认为是干扰项d
- 创建下面集合D,h表示阈值,Zt表示第t帧中选定的target。|D|=n
D = { ∀ d i ∈ D , f ( z , d i ) > h ∩ d i ≠ z t } D = \{\forall d_i \in D,\ f(z,\ d_i) > h \cap d_i \neq z_t\} D={∀di∈D, f(z, di)>h∩di=zt} - 引入新的distractor-aware(干扰感知)目标函数,对和target相似度最高的前k个进行重新排序,最终选定的目标认为是q
第一个α表示权重系数,控制干扰项学习的影响,αi控制每个干扰项的影响。可以认为是神经网络中的已经学习完成的权重 - 使用下面公式加速干扰项学习的目标.
4. local-to-global搜索策略
设置一个固定的常量,每搜索失败一次时,都将搜索局域按照这个常量进行扩大。例如,原来的搜索局域是55,常量是2,当搜索失败一次时,搜索区域会变成77;当再次搜索失败时,搜索区域会变成9*9
9. 知识补充
无