论文笔记Distractor-aware Siamese Networks for Visual Object Tracking

介绍了一种用于视觉对象跟踪的干扰感知孪生网络,解决了背景复杂、数据分布不平衡等问题,通过引入干扰感知模块和全局搜索策略,提高了跟踪精度和鲁棒性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 标题及来源

Distractor-aware Siamese Networks for Visual Object Tracking, ECCV_2018

2. 阅读目的

3. 领域

long term object tracking

4. 拟解决的问题

1. 大多数基于孪生网络的跟踪方法只能区分前景,当背景聚集在一起时,性能无法保证
2. 数据分布不平衡,当跟踪新类别时,定位框不准确
3. 孪生网络不能在线更新参数,当出现巨大外貌变化时,会出现问题
4. 最近的孪生网络执行局部搜索策略,不能处理full occlusion和out-of-view
在这里插入图片描述

5. 提出的方法

针对问题1:在脱机训练时生成更多的语义对(semantics pairs),然后在online tracking时显式抑制这些判别器
针对问题2:将ImageNet检测数据集和COCO检测数据集中生成的图片对用来训练,同时使用数据增强技术;在训练过程中加入semantic negative pairs(和跟踪目标不相同的对象,可能来自同一视频序列,也可能来自不同视频序列),加入这个可以防止在full occusion和out-of-view时发生类漂移
针对问题3:加入distractor-aware module
针对问题4:将局部搜素策略替换为local-to-global search strategy

6. 结果

6.1 VOT的实验结果

在这里插入图片描述
在VOT2016数据集上,该论文的基础版本SiamRPN的效果是0.3441,与ECO(0.375)之间有一些差距。而ECO的效果比DaSiamRPN少了3.6%。DaSiamRPN远超过其它算法。同时该算法的速度是160FPS,是C-COT的500倍,是ECO的20倍
在VOT2017数据集上,DaSiamRPN以0.326排名第一

在这里插入图片描述
从表中可以发现,DaSiamRPN的效果在所有的算法中,效果基本上是最好的。但是也存在一些问题,比如OTB-2015数据集中,DP的效果相对落后其它算法;在VOT2016数据集中,在鲁棒性方面,效果略低于ECO算法,在VOT-2017中,该算法的鲁棒性相对更差

6.2 UAV的实验结果

UAV数据集:由低空无人机拍摄的视频组成的数据集
在这里插入图片描述
从图中可以发现,在long-term的视频跟踪中,DaSiamRPN的AUC分数是0.617,远超过其它算法的得分

6.3 OTB的实验结果

在这里插入图片描述
从表中可以发现,在OTB-2015数据集中,DaSiamRPN的OP(mean overlap precision)是最高的,但是它的DP(mean distance precision)相对较差,只能排在第四,与第一名差了3%。

6.4 消融实验

在这里插入图片描述
从表中可以发现:

  1. 当使用检测数据中的正样本可以将EAO从0.344提高到0.368
  2. 当训练时加入负样本,预测时加入distractor-aware learning,两者在VOT2016数据集上都能将算法的效果提升2%左右,在UAV20L数据集上都能提升1%-2%
  3. 当在算法中加入long-term tracking module模块时,AUC从49.8%提升到了61.7%

7. 改进&存在的问题

1. 当背景复杂时,会产生类漂移现象,如下图所示。当继续预测时,会偏差得越来越多
在这里插入图片描述
2. 当背景变化十分频繁,导致后面帧的背景与第一帧不同,这种情况下该算法可能无效,因为该算法会利用背景信息提升算法的判别能力,但是当背景信息变化非常频繁时,这种算法可能会无效。
3. 当进行long-term视频跟踪时,若长时间未出现目标,直到最后快结束的时候才出现目标,会延长搜索时间,降低跟踪器的速度。因为使用了local-to-global的搜索策略
4. 当出现遮挡或者相似物干扰问题时,会产生类漂移
在这里插入图片描述

8. 可借鉴的点

1. 将背景作为一种信息,进行判别
2. 使用不同种类正样本和含有目标(非target)的负样本进行训练,学习强有力的特征表达
在这里插入图片描述
non-semantic: not real object, just background在这里插入图片描述
3. distractor-aware module

  1. 对每帧都产生 17 ∗ 17 ∗ 5 17*17*5 17175个proposal
  2. 使用NMS减少多余的proposal,
  3. 将分数最高的作为Zt,剩下的如果大于设定的阈值,就会被认为是干扰项d
  4. 创建下面集合D,h表示阈值,Zt表示第t帧中选定的target。|D|=n
    D = { ∀ d i ∈ D ,   f ( z ,   d i ) > h ∩ d i ≠ z t } D = \{\forall d_i \in D,\ f(z,\ d_i) > h \cap d_i \neq z_t\} D={diD, f(z, di)>hdi=zt}
  5. 引入新的distractor-aware(干扰感知)目标函数,对和target相似度最高的前k个进行重新排序,最终选定的目标认为是q
    在这里插入图片描述
    第一个α表示权重系数,控制干扰项学习的影响,αi控制每个干扰项的影响。可以认为是神经网络中的已经学习完成的权重
  6. 使用下面公式加速干扰项学习的目标.
    在这里插入图片描述

4. local-to-global搜索策略
设置一个固定的常量,每搜索失败一次时,都将搜索局域按照这个常量进行扩大。例如,原来的搜索局域是55,常量是2,当搜索失败一次时,搜索区域会变成77;当再次搜索失败时,搜索区域会变成9*9

9. 知识补充

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值