重新思考零样本动作识别:从潜在原子动作中学习

立即解锁
发布时间: 2025-09-16 00:28:08 阅读量: 14 订阅数: 20 AIGC
PDF

计算机视觉前沿进展

# 重新思考零样本动作识别:从潜在原子动作中学习 ## 1 引言 监督式动作识别一直是计算机视觉领域的热门任务。随着时空建模技术的发展以及大型数据集的发布,该领域取得了持续进展。然而,模型性能提升的同时,也变得越来越复杂,需要大量标注数据进行训练。而且,在实际应用中,目标动作会因场景不同而变化或增加,这使得收集数据、标注和重新训练的过程变得耗时且不可避免。 为了减轻这种负担,零样本动作识别(ZSAR)成为了一个活跃的研究方向。它能让模型识别训练集中从未出现过的动作,但由于动作的复杂性,将源动作领域学到的知识迁移到目标动作领域仍然具有挑战性。 ### 1.1 传统方法及其局限性 以往的ZSAR方法主要通过整合或应用新的动作级特征来减轻源动作和目标动作之间的表示差异。具体可分为以下几类: - **手动定义属性**:早期工作使用手动设计的属性来表示动作,但动作的属性众多且难以定义。 - **引入对象作为属性**:部分工作将对象的存在作为属性,通过嵌入动作描述中检测到的语言对象和视频片段中识别的视觉对象来生成特征,但忽略了视频中的时空信息。 - **使用标签名或描述的嵌入**:近期工作使用动作名称或描述的词嵌入来提取语义表示,并端到端训练时空建模网络来提取视觉特征。不过,这些方法将视频和动作视为单个实体,构建的是视觉特征和语义表示之间的一对一桥梁,特征较为粗糙,在目标动作领域的区分度不如在源动作领域,且整合或应用新属性通常需要额外的计算或标注,限制了在现实场景中的应用。 ### 1.2 创新思路:原子动作 受人类通过将新动作分解为原子动作组合来快速理解新动作的启发,我们提出了拼图网络(JigsawNet)。以拼图为例,复杂动作可看作拼图盒上的“组装拼图”,原子动作是“拼图块”,视频是拼图块的堆叠。传统方法基于堆叠级(动作级)特征做决策,而JigsawNet通过匹配堆叠中的拼图块与盒子上的拼图块来做决策,这些原子动作可视为源动作和目标动作共享的联合潜在特征,更精细且稳定。 ### 1.3 主要贡献 - 提出将原子动作作为联合潜在特征的新观点,用于ZSAR,这些特征在源动作和目标动作之间精细且稳定。 - 提出JigsawNet,通过无监督地将复杂动作分解为原子动作组合,并建立视觉特征和语义表示之间的组对组关系来识别未见动作。 - 提出一致性损失(Consistency Loss)和组激励(Group Excitation,GE)模块,充分利用样本间和样本内的知识进行ZSAR。 - 在三个ZSAR基准测试(KineticsZSAR、HMDB51和UCF101)上取得了最先进的性能,证明了该方法的优越性。 ## 2 相关工作 ### 2.1 监督式动作识别 监督式动作识别主要有以下三种解决方案: | 类型 | 方法 | 优点 | 缺点 | | ---- | ---- | ---- | ---- | | 早期方法 | 独立在时间维度上进行空间卷积,借助光流或相邻帧的RGB差异等时间运动信息进行时间建模 | - | 提取运动特征耗时,限制了在现实应用中的使用 | | 中期方法 | 使用3D CNN同时建模空间和时间信息 | 在许多数据集上取得了最先进的结果 | 包含大量参数,容易过拟合,且耗时 | | 近期方法 | 分解空间和时间建模操作,如将3D卷积滤波器分解为2D空间卷积核和1D时间卷积核 | - | - | ### 2.2 零样本动作识别 零样本动作识别的发展历程如下: - **手动定义属性阶段**:最早的工作使用手动定义的属性来表示动作,但动作属性难以定义。 - **引入对象作为属性阶段**:后来的工作引入对象作为属性,提高了效率,但忽略了时空信息。 - **使用词嵌入阶段**:近期工作使用动作名称或描述的词嵌入来提取语义表示,构建视觉特征和语义表示之间的一对一桥梁,但特征粗糙。 ## 3 提出的方法 ZSAR任务要求模型识别训练集中从未出现过的动作。下面将介绍我们提出的组对齐模块、一致性损失和组激励模块,并展示如何将它们组合成拼图网络。 ### 3.1 组对齐(GA)模块 对于每个动作标签 $y_i$,我们通过依赖解析将其简短描述拆分为动词短语组,手动修正后,动作 $y_i$ 表示为 $d_i = \{w_1, ..., w_k\}$,每个 $w_j$ 是一个动词短语,代表一个原子动作。 具体操作步骤如下: 1. **特征提取**: - 使用时空提取骨干网络 $N_{vid}$ 从第 $i$ 个视频 $v_i$ 中提取视觉特征 $F_i = N_{vid}(v_i)$,其中 $F_i = \{f_{i1}, ..., f_{im}\} \in R^{m×d}$,$m$ 是视频 $v_i$ 分割的段数,$d$ 是每个视频段提取的特征维度。 - 使用语义提取骨干网络 $N_{text}$ 从动词短语组中提取语义表示 $G_i = N_{text}(d_i)$,其中 $G_i = \{g_{i1}, ..., g_{ik}\} \in R^{k×d}$。 - 使用对象分类骨干网络 $N_{obj}$ 识别视频中的对象类 $
corwn 最低0.47元/天 解锁专栏
买1年送3月
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

张_伟_杰

人工智能专家
人工智能和大数据领域有超过10年的工作经验,拥有深厚的技术功底,曾先后就职于多家知名科技公司。职业生涯中,曾担任人工智能工程师和数据科学家,负责开发和优化各种人工智能和大数据应用。在人工智能算法和技术,包括机器学习、深度学习、自然语言处理等领域有一定的研究
最低0.47元/天 解锁专栏
买1年送3月
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看
立即解锁

专栏目录

最新推荐

开源医疗设备:教学设计、标准与法规的有效工具

### 开源医疗设备:教学设计、标准与法规的有效工具 #### 1. 引言 医疗设备的设计需要多学科方法。在这一过程中,机械、电子和信息技术等科学技术知识,需与生物学、解剖学和病理生理学等能力相结合,以满足患者和医疗服务提供者的临床需求。医疗设备项目通常涉及专业团队,成员包括生物医学工程师、医生、管理和商业专家等。因此,团队合作态度和沟通技巧与解决问题的能力同样重要。 在这样的背景下,基于协作项目/问题的教学学习方法被认为是将技术能力与横向技能发展相衔接的有效策略,对生物医学工程(BME)专业学生的教育可能具有重要价值。项目式学习(PBL)方法有多种形式,广泛应用于不同学科的研究生和本科生

操作系统任务调度器的实现与优化

### 操作系统任务调度器的实现与优化 在操作系统的设计中,任务调度器是核心组件之一,它负责合理分配CPU时间,确保多个任务能够高效、有序地运行。下面将详细介绍不同类型的任务调度器实现及其特点。 #### 1. 简单调度器与并发问题 最初实现的小操作系统能让内核按顺序调度两个任务。任务ID为0的任务在每次循环开始时恢复执行,但在这个简单示例中,内核任务只是循环调用调度函数,立即恢复ID为1的任务。不过,这种设计存在问题,系统的响应性完全依赖于任务的实现,因为每个任务都可能无限占用CPU,阻止其他任务运行,这种协作模型仅适用于特定场景,可能影响系统的响应性和公平性。 此外,该实现未考虑`j

精益制造与分布式制造:新兴制造模式解析

### 精益制造与分布式制造:新兴制造模式解析 #### 1. 精益制造面临的挑战 精益制造旨在通过消除生产过程中的浪费和低效率来实现持续改进,但在实施过程中面临诸多挑战: - **早期评估困难**:只有少数公司能够在早期评估精益制造的影响,以确定其可行性和盈利能力。 - **缺乏员工咨询**:如果管理层在未与员工协商的情况下决定实施精益制造,可能会导致实施效果不佳。 - **缺乏标准流程**:目前缺乏标准的精益制造实施流程或框架,超过50%的实施努力以失败告终。 - **其他挑战**: - **缺乏承诺**:组织对精益制造的认知消极,高级和中层管理人员缺乏承诺,对精益制造概念理解不

用于监测微波消融治疗的微波成像系统初步评估

# 用于监测微波消融治疗的微波成像系统初步评估 ## 1. 引言 肝癌是一种发生在肝细胞中的恶性肿瘤。在2020年,它是全球第六大常见癌症,也是第三大致命癌症,且年死亡率呈上升趋势。到目前为止,肝癌的黄金标准治疗方法是手术,但肝癌的预后因患者而异,实际上只有5 - 15%的患者适合手术切除。因此,其他治疗方法应运而生,如热消融、栓塞治疗、放射治疗、靶向药物治疗、化疗和免疫治疗等。 目前,射频消融、冷冻消融以及最近的微波消融是临床上主要采用的热消融技术。其中,微波热消融具有微创、低成本和快速的特点,与其他治疗方法相比,热消融可以显著降低患者的发病率和死亡率。 微波热消融利用微波频率的电磁(

中世纪伦理学中的他人相遇:托马斯·阿奎那的案例

# 中世纪伦理学中的他人相遇:托马斯·阿奎那的案例 ## 1 引言 中世纪伦理学采用个人主义的方法,假定存在一个自主的道德主体,其具备实践理性,能够独立于神的启示来识别善恶。中世纪思想家强调道德主体的理性和意志自主性,即没有人能够代替“我”做决定和行动。在中世纪的行动理论中,意向性、个人责任和可归责性等概念凸显出来,与之相关的还有意志自由和良知。 实践理性不仅包括对普遍道德原则的认识,还包括在特定情况下正确应用这些原则的能力。道德行为是实践理性在具体情境中做出的特定判断的结果。这就是实践科学与理论科学的区别:实践科学的对象是偶然的(如偶然的行为),而理论科学的对象是必然的。由于关注特定和偶

嵌入式软件开发中的时序考量与管理

# 嵌入式软件开发中的时序考量与管理 ## 1. 时序验证概述 时序验证的有效性依赖于自动化时序测试的可用性。若能提供自动化测试,且每晚执行这些测试,那么因时序问题而意外受阻的概率将极低。如今,越来越多的项目更进一步,每次提交或推送代码(即对版本控制进行更改时)都会运行时序测试,这种方法被称为“持续集成”,它在功能测试中已得到广泛应用。 自动化测试可在不同环境中实现。单元测试通常在 x86 架构上运行,也就是在本地 PC 或测试服务器上进行。通过相对简单的扩展,单元测试除了进行功能测试外,还能初步捕获和监控被测函数的关键执行时间(CET),从而在不显著增加单元测试时长的情况下实现代码级别的

基于ESP32的设备控制技术解析

# 基于ESP32的设备控制技术解析 ## 1. App Sliders应用 在设备控制领域,MIT App Inventor的滑块组件发挥着重要作用。其滑块位置可映射到一系列数值,用于控制设备,如直流电机的速度、事件的时间间隔或扬声器的音量。 ### 1.1 滑块映射原理 以控制直流电机速度为例,若将滑块范围定义为0 - 100,可将其映射到0 - 255的8位PWM(脉冲宽度调制)值,以此生成具有相应占空比的方波,进而控制直流电机的速度。 ### 1.2 不同类型滑块 - **圆形滑块**:具有独特的视觉外观,在某些应用场景中比水平滑块更合适。相关应用包括特定的布局和应用块设置。

嵌入式软件安全、定时与未来展望

# 嵌入式软件安全、定时与未来展望 ## 1. 安全标准与定时考量 在众多领域,如航空航天、医疗、铁路、汽车等,都有各自与嵌入式系统软件开发相关的安全标准。以下是部分重要安全标准的示例: | 标准 | 安全完整性等级(低 - 高) | 描述 | | --- | --- | --- | | IEC 61508 | SIL1 - SIL4 | 电气/电子组件的通用安全标准 | | IEC 61508 Edition 2 | SIL1 - SIL4 | IEC 61508 的后续版本 | | ISO 26262* | ASIL A - ASIL D | 汽车软件的安全标准 | | IEC 6206

数字图像处理中的相机设置与图像采集

# 数字图像处理中的相机设置与图像采集 ## 1. OV7670相机模块介绍 ### 1.1 引脚说明 | 引脚 | 描述 | | --- | --- | | SIOC | 串行接口时钟 | | SIOD | 串行接口数据输入输出 | | VSYNC | 垂直同步输出 | | HREF | 水平参考 | | PCLK | 像素时钟输出 | | D0 - D7 | 数字数据输出 | | PWDN | 电源关闭输入 | | XCLK | 系统时钟输入 | | RESET | 复位输入 | | 3V3 | 电源供应 | | GND | 接地 | VSYNC 表示正在传输一帧图像,HREF 表示正