＜Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking＞

最新推荐文章于 2024-05-26 09:30:21 发布

原创

最新推荐文章于 2024-05-26 09:30:21 发布 · 786 阅读

1 ·

CC 4.0 BY-SA版权

该研究引入Transformer架构来利用视频中的时间上下文，改进视觉跟踪。通过Transformer编码器增强目标模板，解码器则传播时间信息以平滑外观变化和纠正噪声。这种方法在多种跟踪框架中表现出色，创下了多个跟踪基准的新纪录。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

模板集在视频对象跟踪中，连续帧之间存在丰富的时间上下文，而在现有的跟踪器中却被很大程度上忽略了。在这项工作中，我们桥接单个视频帧，并通过一个用于稳固目标跟踪的Transformer架构探索跨上下文。与在自然语言处理任务中使用Transformer的经典用法不同，我们将其编码器和解码器分为两个并行分支，并在类似于Siamese的跟踪pipeline中精心设计它们。 Transformer编码器通过基于注意力的特征增强来促进目标模板，这有利于高质量跟踪模型的生成。 Transformer解码器将跟踪提示从先前的模板传播到当前帧，从而简化了目标搜索过程。
我们的Transformer辅助跟踪框架整洁并以端到端的方式进行了train。使用建议的transformer，一种简单的连体匹配方法就可以胜过当前表现最佳的跟踪器。通过将我们的Transformer与最新的判别式跟踪pipeline相结合，我们的方法在流行的跟踪基准上创下了一些新的最新记录。在这里插入图片描述

1. Introduction

视觉目标跟踪是计算机视觉中的基本任务。
尽管有最新进展，但由于诸如咬合，变形和外观变化等因素，它仍然是一项具有挑战性的任务。随着时间误差的累积，这些挑战在在线过程中被进一步放大。
众所周知，视频流中的丰富时间信息对于视觉跟踪至关重要。但是，大多数跟踪范式[29、28、49]通过每帧对象检测来处理此任务，其中连续帧之间的时间关系在很大程度上被忽略了。以流行的siam跟踪器为例，模板匹配只考虑初始目标[1、45、19、29]。唯一使用的时间信息是假设目标平滑移动的先验运动（例如余弦窗口），这在视觉跟踪器中被广泛采用。在具有更新机制[20、40、8、60、62、3]的其他跟踪框架中，先前的预测结果被收集以递增地更新跟踪模型。
尽管在上述方法中考虑了历史帧，但视频帧仍被视为独立的副