重新思考零样本动作识别:从潜在原子动作中学习
立即解锁
发布时间: 2025-09-16 00:28:08 阅读量: 14 订阅数: 20 AIGC 


计算机视觉前沿进展
# 重新思考零样本动作识别:从潜在原子动作中学习
## 1 引言
监督式动作识别一直是计算机视觉领域的热门任务。随着时空建模技术的发展以及大型数据集的发布,该领域取得了持续进展。然而,模型性能提升的同时,也变得越来越复杂,需要大量标注数据进行训练。而且,在实际应用中,目标动作会因场景不同而变化或增加,这使得收集数据、标注和重新训练的过程变得耗时且不可避免。
为了减轻这种负担,零样本动作识别(ZSAR)成为了一个活跃的研究方向。它能让模型识别训练集中从未出现过的动作,但由于动作的复杂性,将源动作领域学到的知识迁移到目标动作领域仍然具有挑战性。
### 1.1 传统方法及其局限性
以往的ZSAR方法主要通过整合或应用新的动作级特征来减轻源动作和目标动作之间的表示差异。具体可分为以下几类:
- **手动定义属性**:早期工作使用手动设计的属性来表示动作,但动作的属性众多且难以定义。
- **引入对象作为属性**:部分工作将对象的存在作为属性,通过嵌入动作描述中检测到的语言对象和视频片段中识别的视觉对象来生成特征,但忽略了视频中的时空信息。
- **使用标签名或描述的嵌入**:近期工作使用动作名称或描述的词嵌入来提取语义表示,并端到端训练时空建模网络来提取视觉特征。不过,这些方法将视频和动作视为单个实体,构建的是视觉特征和语义表示之间的一对一桥梁,特征较为粗糙,在目标动作领域的区分度不如在源动作领域,且整合或应用新属性通常需要额外的计算或标注,限制了在现实场景中的应用。
### 1.2 创新思路:原子动作
受人类通过将新动作分解为原子动作组合来快速理解新动作的启发,我们提出了拼图网络(JigsawNet)。以拼图为例,复杂动作可看作拼图盒上的“组装拼图”,原子动作是“拼图块”,视频是拼图块的堆叠。传统方法基于堆叠级(动作级)特征做决策,而JigsawNet通过匹配堆叠中的拼图块与盒子上的拼图块来做决策,这些原子动作可视为源动作和目标动作共享的联合潜在特征,更精细且稳定。
### 1.3 主要贡献
- 提出将原子动作作为联合潜在特征的新观点,用于ZSAR,这些特征在源动作和目标动作之间精细且稳定。
- 提出JigsawNet,通过无监督地将复杂动作分解为原子动作组合,并建立视觉特征和语义表示之间的组对组关系来识别未见动作。
- 提出一致性损失(Consistency Loss)和组激励(Group Excitation,GE)模块,充分利用样本间和样本内的知识进行ZSAR。
- 在三个ZSAR基准测试(KineticsZSAR、HMDB51和UCF101)上取得了最先进的性能,证明了该方法的优越性。
## 2 相关工作
### 2.1 监督式动作识别
监督式动作识别主要有以下三种解决方案:
| 类型 | 方法 | 优点 | 缺点 |
| ---- | ---- | ---- | ---- |
| 早期方法 | 独立在时间维度上进行空间卷积,借助光流或相邻帧的RGB差异等时间运动信息进行时间建模 | - | 提取运动特征耗时,限制了在现实应用中的使用 |
| 中期方法 | 使用3D CNN同时建模空间和时间信息 | 在许多数据集上取得了最先进的结果 | 包含大量参数,容易过拟合,且耗时 |
| 近期方法 | 分解空间和时间建模操作,如将3D卷积滤波器分解为2D空间卷积核和1D时间卷积核 | - | - |
### 2.2 零样本动作识别
零样本动作识别的发展历程如下:
- **手动定义属性阶段**:最早的工作使用手动定义的属性来表示动作,但动作属性难以定义。
- **引入对象作为属性阶段**:后来的工作引入对象作为属性,提高了效率,但忽略了时空信息。
- **使用词嵌入阶段**:近期工作使用动作名称或描述的词嵌入来提取语义表示,构建视觉特征和语义表示之间的一对一桥梁,但特征粗糙。
## 3 提出的方法
ZSAR任务要求模型识别训练集中从未出现过的动作。下面将介绍我们提出的组对齐模块、一致性损失和组激励模块,并展示如何将它们组合成拼图网络。
### 3.1 组对齐(GA)模块
对于每个动作标签 $y_i$,我们通过依赖解析将其简短描述拆分为动词短语组,手动修正后,动作 $y_i$ 表示为 $d_i = \{w_1, ..., w_k\}$,每个 $w_j$ 是一个动词短语,代表一个原子动作。
具体操作步骤如下:
1. **特征提取**:
- 使用时空提取骨干网络 $N_{vid}$ 从第 $i$ 个视频 $v_i$ 中提取视觉特征 $F_i = N_{vid}(v_i)$,其中 $F_i = \{f_{i1}, ..., f_{im}\} \in R^{m×d}$,$m$ 是视频 $v_i$ 分割的段数,$d$ 是每个视频段提取的特征维度。
- 使用语义提取骨干网络 $N_{text}$ 从动词短语组中提取语义表示 $G_i = N_{text}(d_i)$,其中 $G_i = \{g_{i1}, ..., g_{ik}\} \in R^{k×d}$。
- 使用对象分类骨干网络 $N_{obj}$ 识别视频中的对象类 $
0
0
复制全文
相关推荐









