论文笔记Distractor-aware Siamese Networks for Visual Object Tracking

最新推荐文章于 2024-12-06 16:57:41 发布

原创最新推荐文章于 2024-12-06 16:57:41 发布 · 1.3k 阅读

3 ·

CC 4.0 BY-SA版权

目标跟踪专栏收录该内容

19 篇文章

订阅专栏

介绍了一种用于视觉对象跟踪的干扰感知孪生网络，解决了背景复杂、数据分布不平衡等问题，通过引入干扰感知模块和全局搜索策略，提高了跟踪精度和鲁棒性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文笔记Distractor-aware Siamese Networks for Visual Object Tracking

1. 标题及来源
2. 阅读目的
3. 领域
4. 拟解决的问题
5. 提出的方法
6. 结果
7. 改进&存在的问题
8. 可借鉴的点
9. 知识补充

1. 标题及来源

Distractor-aware Siamese Networks for Visual Object Tracking, ECCV_2018

2. 阅读目的

无

3. 领域

long term object tracking

4. 拟解决的问题

1. 大多数基于孪生网络的跟踪方法只能区分前景，当背景聚集在一起时，性能无法保证
2. 数据分布不平衡，当跟踪新类别时，定位框不准确
3. 孪生网络不能在线更新参数，当出现巨大外貌变化时，会出现问题
4. 最近的孪生网络执行局部搜索策略，不能处理full occlusion和out-of-view
在这里插入图片描述

5. 提出的方法

针对问题1：在脱机训练时生成更多的语义对(semantics pairs)，然后在online tracking时显式抑制这些判别器
针对问题2：将ImageNet检测数据集和COCO检测数据集中生成的图片对用来训练，同时使用数据增强技术；在训练过程中加入semantic negative pairs(和跟踪目标不相同的对象，可能来自同一视频序列，也可能来自不同视频序列)，加入这个可以防止在full occusion和out-of-view时发生类漂移
针对问题3：加入distractor-aware module
针对问题4：将局部搜素策略替换为local-to-global search strategy

6. 结果

6.1 VOT的实验结果

在这里插入图片描述
在VOT2016数据集上，该论文的基础版本SiamRPN的效果是0.3441，与ECO(0.375)之间有一些差距。而ECO的效果比DaSiamRPN少了3.6%。DaSiamRPN远超过其它算法。同时该算法的速度是160FPS，是C-COT的500倍，是ECO的20倍
在VOT2017数据集上，DaSiamRPN以0.326排名第一

在这里插入图片描述
从表中可以发现，DaSiamRPN的效果在所有的算法中，效果基本上是最好的。但是也存在一些问题，比如OTB-2015数据集中，DP的效果相对落后其它算法；在VOT2016数据集中，在鲁棒性方面，效果略低于ECO算法，在VOT-2017中，该算法的鲁棒性相对更差

6.2 UAV的实验结果

UAV数据集：由低空无人机拍摄的视频组成的数据集
在这里插入图片描述
从图中可以发现，在long-term的视频跟踪中，DaSiamRPN的AUC分数是0.617，远超过其它算法的得分

6.3 OTB的实验结果

在这里插入图片描述
从表中可以发现，在OTB-2015数据集中，DaSiamRPN的OP(mean overlap precision)是最高的，但是它的DP(mean distance precision)相对较差，只能排在第四，与第一名差了3%。

6.4 消融实验

在这里插入图片描述
从表中可以发现：

当使用检测数据中的正样本可以将EAO从0.344提高到0.368
当训练时加入负样本，预测时加入distractor-aware learning，两者在VOT2016数据集上都能将算法的效果提升2%左右，在UAV20L数据集上都能提升1%-2%
当在算法中加入long-term tracking module模块时，AUC从49.8%提升到了61.7%

7. 改进&存在的问题

1. 当背景复杂时，会产生类漂移现象，如下图所示。当继续预测时，会偏差得越来越多
在这里插入图片描述
2. 当背景变化十分频繁，导致后面帧的背景与第一帧不同，这种情况下该算法可能无效，因为该算法会利用背景信息提升算法的判别能力，但是当背景信息变化非常频繁时，这种算法可能会无效。
3. 当进行long-term视频跟踪时，若长时间未出现目标，直到最后快结束的时候才出现目标，会延长搜索时间，降低跟踪器的速度。因为使用了local-to-global的搜索策略
4. 当出现遮挡或者相似物干扰问题时，会产生类漂移
在这里插入图片描述

8. 可借鉴的点

1. 将背景作为一种信息，进行判别
2. 使用不同种类正样本和含有目标(非target)的负样本进行训练，学习强有力的特征表达
在这里插入图片描述
non-semantic: not real object, just background
3. distractor-aware module

对每帧都产生 $17 * 17 * 5$ 个proposal
使用NMS减少多余的proposal，
将分数最高的作为Zt，剩下的如果大于设定的阈值，就会被认为是干扰项d
创建下面集合D，h表示阈值，Zt表示第t帧中选定的target。|D|=n
$\{\forall d_i \in D,\ f(z,\ d_i) > h \cap d_i \neq z_t\}$
引入新的distractor-aware(干扰感知)目标函数，对和target相似度最高的前k个进行重新排序，最终选定的目标认为是q

第一个α表示权重系数，控制干扰项学习的影响，αi控制每个干扰项的影响。可以认为是神经网络中的已经学习完成的权重
使用下面公式加速干扰项学习的目标.