重新思考零样本动作识别：从潜在原子动作中学习

立即解锁

发布时间: 2025-09-16 00:28:08 阅读量: 14 订阅数: 20

计算机视觉前沿进展

# 重新思考零样本动作识别：从潜在原子动作中学习 ## 1 引言监督式动作识别一直是计算机视觉领域的热门任务。随着时空建模技术的发展以及大型数据集的发布，该领域取得了持续进展。然而，模型性能提升的同时，也变得越来越复杂，需要大量标注数据进行训练。而且，在实际应用中，目标动作会因场景不同而变化或增加，这使得收集数据、标注和重新训练的过程变得耗时且不可避免。为了减轻这种负担，零样本动作识别（ZSAR）成为了一个活跃的研究方向。它能让模型识别训练集中从未出现过的动作，但由于动作的复杂性，将源动作领域学到的知识迁移到目标动作领域仍然具有挑战性。 ### 1.1 传统方法及其局限性以往的ZSAR方法主要通过整合或应用新的动作级特征来减轻源动作和目标动作之间的表示差异。具体可分为以下几类： - **手动定义属性**：早期工作使用手动设计的属性来表示动作，但动作的属性众多且难以定义。 - **引入对象作为属性**：部分工作将对象的存在作为属性，通过嵌入动作描述中检测到的语言对象和视频片段中识别的视觉对象来生成特征，但忽略了视频中的时空信息。 - **使用标签名或描述的嵌入**：近期工作使用动作名称或描述的词嵌入来提取语义表示，并端到端训练时空建模网络来提取视觉特征。不过，这些方法将视频和动作视为单个实体，构建的是视觉特征和语义表示之间的一对一桥梁，特征较为粗糙，在目标动作领域的区分度不如在源动作领域，且整合或应用新属性通常需要额外的计算或标注，限制了在现实场景中的应用。 ### 1.2 创新思路：原子动作受人类通过将新动作分解为原子动作组合来快速理解新动作的启发，我们提出了拼图网络（JigsawNet）。以拼图为例，复杂动作可看作拼图盒上的“组装拼图”，原子动作是“拼图块”，视频是拼图块的堆叠。传统方法基于堆叠级（动作级）特征做决策，而JigsawNet通过匹配堆叠中的拼图块与盒子上的拼图块来做决策，这些原子动作可视为源动作和目标动作共享的联合潜在特征，更精细且稳定。 ### 1.3 主要贡献 - 提出将原子动作作为联合潜在特征的新观点，用于ZSAR，这些特征在源动作和目标动作之间精细且稳定。 - 提出JigsawNet，通过无监督地将复杂动作分解为原子动作组合，并建立视觉特征和语义表示之间的组对组关系来识别未见动作。 - 提出一致性损失（Consistency Loss）和组激励（Group Excitation，GE）模块，充分利用样本间和样本内的知识进行ZSAR。 - 在三个ZSAR基准测试（KineticsZSAR、HMDB51和UCF101）上取得了最先进的性能，证明了该方法的优越性。 ## 2 相关工作 ### 2.1 监督式动作识别监督式动作识别主要有以下三种解决方案： | 类型 | 方法 | 优点 | 缺点 | | ---- | ---- | ---- | ---- | | 早期方法 | 独立在时间维度上进行空间卷积，借助光流或相邻帧的RGB差异等时间运动信息进行时间建模 | - | 提取运动特征耗时，限制了在现实应用中的使用 | | 中期方法 | 使用3D CNN同时建模空间和时间信息 | 在许多数据集上取得了最先进的结果 | 包含大量参数，容易过拟合，且耗时 | | 近期方法 | 分解空间和时间建模操作，如将3D卷积滤波器分解为2D空间卷积核和1D时间卷积核 | - | - | ### 2.2 零样本动作识别零样本动作识别的发展历程如下： - **手动定义属性阶段**：最早的工作使用手动定义的属性来表示动作，但动作属性难以定义。 - **引入对象作为属性阶段**：后来的工作引入对象作为属性，提高了效率，但忽略了时空信息。 - **使用词嵌入阶段**：近期工作使用动作名称或描述的词嵌入来提取语义表示，构建视觉特征和语义表示之间的一对一桥梁，但特征粗糙。 ## 3 提出的方法 ZSAR任务要求模型识别训练集中从未出现过的动作。下面将介绍我们提出的组对齐模块、一致性损失和组激励模块，并展示如何将它们组合成拼图网络。 ### 3.1 组对齐（GA）模块对于每个动作标签 $y_i$，我们通过依赖解析将其简短描述拆分为动词短语组，手动修正后，动作 $y_i$ 表示为 $d_i = \{w_1, ..., w_k\}$，每个 $w_j$ 是一个动词短语，代表一个原子动作。具体操作步骤如下： 1. **特征提取**： - 使用时空提取骨干网络 $N_{vid}$ 从第 $i$ 个视频 $v_i$ 中提取视觉特征 $F_i = N_{vid}(v_i)$，其中 $F_i = \{f_{i1}, ..., f_{im}\} \in R^{m×d}$，$m$ 是视频 $v_i$ 分割的段数，$d$ 是每个视频段提取的特征维度。 - 使用语义提取骨干网络 $N_{text}$ 从动词短语组中提取语义表示 $G_i = N_{text}(d_i)$，其中 $G_i = \{g_{i1}, ..., g_{ik}\} \in R^{k×d}$。 - 使用对象分类骨干网络 $N_{obj}$ 识别视频中的对象类 $

最低0.47元/天解锁专栏

买1年送3月

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

重新思考零样本动作识别：从潜在原子动作中学习

相关推荐

专栏目录

重新思考零样本动作识别：从潜在原子动作中学习

相关推荐

WSCDDL.rar_字典_字典学习_弱监督_视觉_视觉识别

通过双码本和分层传输框架进行跨视图动作识别

基于局部约束字典学习的非线性降维人脸识别.pdf

基于旋转石墨盘电极的油料光谱仪技术详解：原子发射在润滑油监测中的应用

JigsawNet：用于零样本动作识别的创新模型

模式识别与机器学习基础：从多项式曲线拟合到信息理论

【OMP算法：从零开始到性能极致】：掌握算法秘诀，加速数据处理

【EBSD模式识别揭秘】：软件自动识别晶体结构的终极指南

环境样本采集标准操作程序：提高数据质量的第一步

【ATE Studio入门全攻略】：从零掌握自动测试环境架构设计的7大核心步骤

Linux 部署 Mycat 实现 MariaDB 分库分表

用于微信小程序socket通信的封装.zip

专栏目录

最新推荐

开源医疗设备：教学设计、标准与法规的有效工具

操作系统任务调度器的实现与优化

精益制造与分布式制造：新兴制造模式解析

用于监测微波消融治疗的微波成像系统初步评估

中世纪伦理学中的他人相遇：托马斯·阿奎那的案例

嵌入式软件开发中的时序考量与管理

基于ESP32的设备控制技术解析

嵌入式软件安全、定时与未来展望

数字图像处理中的相机设置与图像采集