1.研究背景
在线行为检测的目地是在没有任何未来访问权限的情况下,从视频流中正确识别出正在发生的行为。由于在自动驾驶和视频监控,异常检测等领域具有很大的应用前景而收到越来越多的关注。该任务主要挑战是我们要在不充分观察的情况下,在视频帧到达的时刻检测出行为,为了解决该问题,就需要对长程时序依赖关系进行学习,目前的方法趋向于使用RNN对时序依赖关系建模,但是RNN存在非并行性,以及梯度消失问题,因此很难优化该结构,因此我们提出应用transformer去解决这些问题 ,transformer拥有强大的通过自注意力模块进行长程时序建模的能力。
2.研究内容
在本文中我们提出了一种新的基于transformer的编码器解码器框架(OadTR),编码器能够捕获历史观察信息中关系以及进行全局交互,解码器通过聚和未来的片段表现来提取辅助信息,因此OadTR能够通过对历史信息编码以及对未来的上下文进行预测来识别现在的行为。我们在HDD,TVSeies,THUMOS14上评估了我们的数据集显示出我们的模型具有很高的训练和推理速度。
3.研究方法
我们通过对在线行为检测任务引入transformer,该方法是一个能够通过同时学习历史关系和未来信息来对当前的行为进行分类的编码器解码器结构。
第一步是通过标准CNN从给出的视频中提取片段级别的特征序列,然后将task token嵌入到特征序列中,并将其输入到编码器模块中,然后这个task token 的输出能够从历史观察中对全局的时序关系进行编码,解码器用于预测接下来可能发生的行为最后我们将task token的输出和解码器连接起来,用于检测在线行为。
4.本文贡献
(1)第一个将transformer用于在线行为检测上的并提出OadTR。
ICCV 2021| OadTR: Online Action Detection with Transformers论文笔记
最新推荐文章于 2025-04-01 15:42:26 发布