自监督视频内外重建：LIIR方法的研究与应用实例

PDF文件

32.04MB | 更新于2025-01-16 | 48 浏览量 | 举报收藏

立即下载

本文主要探讨了"自监督视频内外重建方法LIIR的研究与应用"这一主题。在这个研究中，研究人员关注的是如何在无需手动标注的情况下，利用未标记的视频数据学习视觉对应关系。传统的自监督学习方法往往局限于视频内部的自我监督，而LIIR（Local Perceptual Video Inner-Outer Reconstruction）则突破了这个局限，通过以下几个关键创新实现了视频对应学习的提升： 1. 实例区分性表示学习：LIIR引入了跨视频的相似性作为额外的负样本，通过将视频内部期望的像素关联与不同视频之间的对应关系进行对比，强化了模型区分不同实例的能力。这种方法有助于训练出更具区分性的特征表示。 2. 位置感知与空间紧凑性：不同于常规方法，LIIR将位置信息整合到了对应匹配中，通过设计一种位置偏移策略，消除了位置编码在计算视频间相似度时可能带来的干扰，使得模型对位置变化更加敏感。这提高了对应匹配的精确性和鲁棒性。 3. 基于空间连续性的紧凑性约束：为了最大化利用视频数据的空间连续性，LIIR在对应匹配过程中施加了基于紧凑性的约束，这使得找到的对应关系更为稀疏且可靠。这种约束有助于减少冗余信息，提高重建质量。通过这些创新，LIIR不仅在对象识别、语义分割等任务上表现出色，还在关键点检测等高级视觉对应任务中超越了当前自监督学习的前沿技术。研究者在北京理工大学、ETH Zurich、ReLER、AAII和悉尼科技大学等多个机构进行了合作，成果以GitHub项目的形式开源，展现了其在计算机视觉领域的实际应用价值。这项研究对于推动无监督或自监督视觉对应学习的发展具有重要意义。

(i) =

8721

他们的模型表现。相比之下，我们通过一个统一的像素级亲

和力框架来构建视频内部和视频间的上下文，提升了实例级

别的区分能力，同时不损失实例内部的不变性。我们的结果

表明，如何充分利用负样本进行时间对应学习仍然是一个有

趣的问题。自监督视频表示学习。使用无标签视频数据进行

对应学习的方法属于广泛的自监督视频表示学习领域。为了

学习可迁移的视频表示，提出了多种预训练任务，以探索视

频的不同内在属性作为自由监督信号，包括时间序列排序[17

,58,95]，预测运动模式[1,18,65,78,

85]，解决时空立方谜题[38]，预测未来表示[49,

83]，以及时间对齐视频[16]。学习到的表示是紧凑的视频描

述符，可以推广到各种下游任务（例如动作识别[21,22,69,

96]，视频字幕生成[74,

110]，视频检索[57]），而在本文中，我们特别关注学习用

于像素级对应匹配的细粒度视觉特征。自监督图像表示学习

。基本上，用于图像表示学习的自监督方法与用于视频的方

法有着相似的关键思想-设计预训练任务，以从图像内部的内

在信息中挖掘监督信号[102]。这些任务的例子包括估计空间

上下文[13]，预测图像旋转[20]，解决拼图难题[59]，以及许

多其他任务[41,66,

92]。最近的努力主要集中在改进大规模的深度度量学习技术

，即采用实例区分预训练任务，其中交叉熵目标用于将每个

图像与其他不同图像（即负样本）区分开[7,8,23,26,

63]。在这项工作中，我们吸收了在鲁棒的时间对应匹配中对

比正样本（视频内部亲和力）和大量负样本（视频间亲和力

）的思想，并在一个统一的视频内部和视频间重建框架中加

以实现。视频掩码传播。这个任务，也称为半自动视频分割

，旨在将第一帧的对象掩码传播到整个视频序列[77,

88]。它解决了经典自动视频分割技术[51,64,89,90,108,

109]在定义目标对象方面缺乏灵活性的问题[91]。根据它们

如何利用第一帧的监督，现有的掩码传播模型可以分为三类

：i）基于在线微调的方法，在推断过程中使用掩码对通用分

割网络进行微调[5,

82]；ii）基于匹配的方法，直接将分割网络与第一帧掩码和/

或先前的分割结果相关联[32,50,61,67,80,

104]。如图1所示，通常需要大量的注释来训练这些系统，

即首先在ImageNet上进行预训练，然后在COCO、DAVIS

、Youtube等数据集上进行微调。

与VOS[99

]等方法不同，我们追求更高效的注释解决方案；类似于之前

的自监督对应关系学习方法[39,40,52,84]，LIIR

仅使用无标签视频进行训练。一旦训练完成，它可以直接应

用于掩码传播，无需适应。

3.我们的方法

我们提出了LIIR

，这是一个自监督框架，可以从原始视频中学习到密集的对

应关系。在详细介绍我们的模型设计（参见§3.2

）之前，我们首先回顾一下经典的基于重建的时间对应关系

学习策略（参见§3.1），这是我们LIIR的基础。

3.1.初步：通过帧重建学习时间对应关系

由于视频中的外观连续性，可以将‘查询’帧中的像素视为

从其他‘参考’帧的某些位置‘复制’而来。基于此，一些

研究[40,84

]提出了基于重建的对应关系学习方案：每个查询像素都努力

寻找能够最好地重建自己的参考帧像素。形式上，令Iq，I

r∈RH×W×3

分别表示来自同一视频的查询帧和参考帧。它们通过

ConvNet编码器（例如ResNet[24]）φ

投影到像素嵌入空间中：RH×W×3→Rh×w×c

，使得Iq，Ir=φ(Iq)，φ(Ir)

。‘复制’运算符可以近似为一个帧间亲和矩阵A∈[0,

1]hw×hw：

A(i,j)=ex



j′exp(Iq(i)∙Ir(j′)),i,j∈{1,∙∙∙,hw

}(1)

其中A(i,j)∈[0,1]是A中的第(i,j)个元素，表示I

q中的像素i与Ir中的像素j之间的相似度，‘∙

’表示点积。这样，A给出了Iq和Ir

之间所有像素对应关系的强度，根据这个强度，可以通过Ir

中像素的加权和对Iq中的像素i进行重建：

jA(i,j)Ir(j).(2)

因此，φ的训练目标被定义为重建损失：Lres=||Iq−ˆIq||

2.(3)

在实践中，为了避免信息泄露导致的平凡解，采用了信息瓶

颈训练样本，例如RGB2gray操作[84]，RGB[40]或

Lab[39

]颜色空间的逐通道dropout。训练后，使用表示编码器φ

进行对应匹配：类似于公式2，估计亲和力A

并用于从参考帧传播所需的像素级实体（例如实例掩码、关

键点图）到查询帧。

3.2.LIIR：局部感知的视频内和视频间重建框架

在重建复制方案的基础上，LIIR

具备了三个关键但长期被忽视的能力

剩余11页未读，继续阅读

cpongm

粉丝: 6

自监督视频内外重建：LIIR方法的研究与应用实例

liir:在MARL中学习个人内在奖励

LIIR: 在多Agent强化学习中学习个体内在奖励

C语言开发实现Python butter函数的实践应用

NLP图像搜索部署与问题解决指南

数据挖掘概述.ppt

浅谈互联网+儿童文学阅读指导策略(1).docx

前端分析-202307110078988

推荐算法介绍PPT学习课件.ppt

变电站综合自动化抗电磁干扰的措施.doc

数控车螺纹编程新(课堂PPT).ppt

最新资源