利用变形金刚模型探寻社会群体活动识别的群体线索

立即解锁
发布时间: 2025-09-16 00:28:06 阅读量: 2 订阅数: 19 AIGC
PDF

计算机视觉前沿进展

# 利用变形金刚模型探寻社会群体活动识别的群体线索 ## 1. 评估划分 评估分为两部分:群体活动识别和社会群体活动识别。 ### 1.1 群体活动识别评估 遵循基于检测的设置,使用分类准确率作为评估指标。由于方法可预测多个群体活动,需从中选一个进行识别,选择概率最高的预测活动与真实活动比较。 ### 1.2 社会群体活动识别评估 不同数据集使用不同指标: - **排球数据集**:每个场景只有一个社会群体活动,使用群体识别准确率。先按群体活动识别方式选一个群体预测,再将预测的群体成员边界框与真实框比较,预测活动正确且预测框与真实框的交并比(IoU)大于 0.5 时结果正确。 - **集体活动数据集**:每个场景有多个社会群体活动,使用平均精度均值(mAP)。预测活动正确且所有群体成员预测框与真实框 IoU 大于 0.5 时为真阳性。 ## 2. 实现细节 ### 2.1 特征提取与模型设置 - 使用 I3D 的 RGB 流作为骨干特征提取器,将 Mixed 3c、Mixed 4f 和 Mixed 5c 层的特征输入到可变形变压器中。 - 可变形变压器的超参数设置与 Deformable DETR 一致,Lf = 3,Dp = 256,Nq = 300。 - I3D 用 Kinetics 数据集训练的参数初始化,可变形变压器用 COCO 数据集训练的参数初始化。 ### 2.2 优化器与训练设置 - 使用 AdamW 优化器,批量大小为 16,初始学习率为 10⁻⁴,权重衰减为 10⁻⁴。 - 训练轮数设为 120,100 轮后学习率衰减。 - 序列长度 T 设为 9,使用中心帧的真实标签计算损失。 ### 2.3 数据增强 - 时间方向随机移动帧,非标注帧在中心时使用视觉跟踪器的边界框作为真实框。 - 随机水平翻转、缩放和裁剪训练数据。 - 采用辅助损失提升性能,最大群体大小 M 设为 12,超参数 ηv = λv = 2,ηs = λs = 1,ηu = λu = 5。 ### 2.4 集体活动数据集特定设置 - **群体活动识别评估**:训练轮数设为 10,5 轮后学习率衰减,因数据集场景多样性有限,损失在几轮内收敛。 - **社会群体活动识别评估**:序列长度 T 设为 17,遵循 Ehsanpour 等人的设置。 ## 3. 群体活动识别 ### 3.1 与最先进方法对比 | 方法 | 排球数据集 - 活动 | 排球数据集 - 动作 | 集体活动数据集 - 活动 | 集体活动数据集 - 动作 | | --- | --- | --- | --- | --- | | SSU | 86.2 (90.6) | – (81.8) | – (–) | – (–) | | stagNet | 87.6 (89.3) | – (–) | 87.9 (89.1) | – (–) | | ARG | 91.5 (92.5) | 39.8 (83.0) | 86.1 (88.1) | 49.6 (77.3) | | CRM | – (93.0) | – (–) | – (85.8) | – (–) | | Actor - Transformers | – (94.4) | – (85.9) | – (92.8) | – (–) | | Ehsanpour 等人 | 93.0 (93.1) | 41.8 (83.3) | 89.4 (89.4) | 55.9 (78.3) | | Pramono 等人 | – (95.0) | – (83.1) | – (95.2) | – (–) | | P2CTDM | – (92.7) | – (–) | – (96.1) | – (–) | | DIN | – (93.6) | – (–) | – (95.9) | – (–) | | GroupFormer | 95.0∗(95.7) | – (85.6) | 85.2∗(87.5† /96.3) | – (–) | | 本文方法 | 96.0 (–) | 65.0 (–) | 96.5 (–) | 64.9 (–) | 注:无括号的值表示基于检测的性能,括号内的值表示使用真实边界框的性能。 从表中可知,本文方法在基于检测的设置中优于最先进方法。GroupFormer 和其他方法在使用预测边界框时性能下降,表明最新的基于区域特征的方法仍存在人员定位不完整的问题,而本文的特征生成具有优势。且与基于真实框的性能相比,本文方法表现最佳。值得注意的是,本文方法仅使用 RGB 图像作为输入,而 GroupFormer 除 RGB 数据外还利用了光流和姿态。 ### 3.2 群体注释分析 使用排球数据集分析群体注释对群体活动识别的影响,比较 GroupFormer 和本文方法在有和无群体注释时的性能。 | 方法 | 注释类型 | 活动 | | --- | --- | --- | | GroupFormer | 原始 | 95.0∗(95.7) | | GroupFormer | 群体 | 93.2‡(96.1∗) | | 本文方法 | 原始 | 95.0 (–) | | 本文方法 | 群体 | 96.0 (–) | GroupFormer 在基于真实框的群体注释设置中表现最佳,但使用预测框时性能大幅下降,可能是群体成员检测不佳影响了识别性能。而本文方法不依赖边界框预测群体活动,即使群体成员识别不正确,性能也不会下降,在基于检测的设置中表现最佳。 ## 4. 社会群体活动识别 ### 4.1 与最先进方法对比 #### 4.1.1 排球数据集 | 方法 | 准确率 | 右 | 左 | 设置 | 扣球 | 传球 | 得分点 | 设置 | 扣球 | 传球 | 得分点 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | Ehsanpour 等人 | 44.5 | 17.2 | 74.0 | 49.0 | 29.9 | 19.7 | 79.6 | 25.0 | 28.4 | | | | GroupFormer | 48.8 | 25.0 | 56.6 | 59.0 | 51.7 | 31.5 | 55.3 | 58.8 | 51.0 | | | | 本文方法 | 60.6 | 35.9 | 68.2 | 81.9 | 50.6 | 50.6 | 53.6 | 74.3 | 56.9 | | | 本文方法在排球数据集上比其他方法有显著性能提升,表明在群体成员识别和活动识别方面都有改进。本文方法从特征图中聚合嵌入了分组线索的特征,有助于准确识别图像中不同群体成员分布的活动。 #### 4.1.2 集体活动数据集 | 方法 | mAP | 交叉 | 等待 | 排队 | 行走 | 交谈 | | --- | --- | --- | --- | --- | --- | --- | | Ehsanpour 等人 | 51.3 | – | – | – | – | – | | 本文方法 | 46.0 | 49.2 | 64.5 | 54.1 | 55.6 | 6.56 | Ehsanpour 等人的方法在集体活动数据集上表现更好,本文方法在“交谈”活动上性能较低,可能是训练数据中该活动特定群体大小样本数量少导致,测试数据中 86%“交谈”样本群体大小为 4,而训练数据中此类样本仅 57 个,占 0.8%。 ### 4.2 群体大小分析 群体大小预测影响社会群体活动识别性能,比较不同方法在不同群体大小下的性能。 | 方法 | 群体大小 (训练数据比例) | 1 (36%) | 2 (21%) | 3 (19%) | 4 (6%) | 5 (5%) | 6 (12%) | | --- | --- | --- | --- | --- | --- | --- | --- | | Ehsanpour 等人 | | 45.3 | 48.2 | 61.2 | 27.3 | 15.8 | 32.5 | | GroupFormer | | 57.3 | 29.6 | 58.4 | 28.4 | 44.7 | 54.4 | | 本文方法 | | 83.6 | 42.9 | 52.4 | 26.1 | 39.5 | 63.8 | 本文方法的性能与训练数据比例有一定相关性,是依赖群体大小学习的缺点。但有一定训练数据时,在大小群体中都有竞争力,而其他两种方法只在大或小群体中有竞争力,表明本文方法对群体大小依赖性小,大规模训练数据下可取得高性能。 ### 4.3 群体成员点顺序分析 群体成员点在真实点序列中按 X 坐标升序排列,比较两种排列方式的性能。 | 群体成员点顺序 | 顺序改变概率 | 准确率 | | --- | --- | --- | | X 坐标升序 | 7.4% | 60.6 | | Y 坐标升序 | 13% | 55.5 | 按 X 坐标升序排列时性能更好,表中概率表示给真实边界框位置加小扰动时,点顺序改变的比例。Y 坐标升序时顺序变化更频繁,且框位置稍有差异就难预测顺序。 ### 4.4 定性分析 可变形注意力模块是聚合与社会群体活动识别相关特征、生成社会群体特征的关键组件。可视化变压器解码器的注意力位置,展示最后一层中注意力权重最高的四个位置。结果表明,群体成员分布广泛时,特征通常从低分辨率特征图聚合,反之亦然,说明注意力模块能根据群体成员分布有效聚合特征,有助于提高社会群体活动识别性能。 ```mermaid graph LR classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px; A(数据输入):::process --> B(特征提取):::process B --> C(可变形变压器):::process C --> D(群体活动识别):::process C --> E(社会群体活动识别):::process D --> F(评估 - 群体活动):::process E --> G(评估 - 社会群体活动):::process ``` 综上所述,提出的社会群体活动识别方法利用可变形变压器生成有效社会群体特征,无需区域特征,使社会群体特征的有效性与人员定位无关。从特征中提取的群体成员信息简洁,可用简单的匈牙利匹配识别群体成员,实现高性能的社会群体活动识别。通过大量实验,该方法相比现有方法有显著改进。 ## 5. 实验总结与优势分析 ### 5.1 实验结果总结 通过上述一系列实验,我们可以总结出以下几点关键结果: - **群体活动识别**:在基于检测的设置中,本文方法显著优于最先进的方法,即使与基于真实框的性能相比也表现最佳。并且仅使用 RGB 图像作为输入,体现了特征生成的优势。 - **社会群体活动识别**:在排球数据集上,本文方法取得了显著的性能提升,在群体成员识别和活动识别方面都有改进。但在集体活动数据集的“交谈”活动上,由于训练数据样本数量的问题,性能有待提高。 - **群体大小与顺序影响**:群体大小预测对本文方法有一定影响,但在有足够训练数据时,对不同群体大小都有较好的适应性。群体成员点按 X 坐标升序排列时,方法性能更好。 ### 5.2 方法优势分析 本方法具有以下几个明显的优势: - **特征生成优势**:不依赖于区域特征,避免了最新基于区域特征方法中人员定位不完整的问题,仅使用 RGB 图像就能生成有效的社会群体特征。 - **减少对边界框的依赖**:在群体活动识别中,不依赖边界框来预测群体活动,即使群体成员识别不准确,性能也不会大幅下降。 - **特征聚合能力**:可变形注意力模块能够根据群体成员的分布有效聚合特征,从而提高社会群体活动识别的性能。 ### 5.3 性能改进方向 针对在集体活动数据集“交谈”活动上的性能问题,我们可以考虑以下改进方向: - **增加训练数据**:收集更多特定群体大小的“交谈”活动样本,以提高模型对该活动的学习能力。 - **数据增强策略**:通过更丰富的数据增强方法,如改变场景、光照等,增加训练数据的多样性。 ## 6. 方法的操作步骤与流程 ### 6.1 整体流程 本方法的整体操作流程可以概括为以下几个步骤: 1. **数据输入**:准备 RGB 图像数据作为输入。 2. **特征提取**:使用 I3D 的 RGB 流作为骨干特征提取器,提取 Mixed 3c、Mixed 4f 和 Mixed 5c 层的特征。 3. **特征输入与处理**:将提取的特征输入到可变形变压器中进行处理。 4. **活动识别**:进行群体活动识别和社会群体活动识别。 5. **评估**:根据不同的数据集和评估指标,对识别结果进行评估。 ### 6.2 详细操作步骤 #### 6.2.1 特征提取与模型初始化 - 使用 I3D 的 RGB 流作为骨干特征提取器,输入特征从 Mixed 3c、Mixed 4f 和 Mixed 5c 层获取。 - 可变形变压器的超参数设置为 Lf = 3,Dp = 256,Nq = 300。 - I3D 用 Kinetics 数据集训练的参数初始化,可变形变压器用 COCO 数据集训练的参数初始化。 #### 6.2.2 训练设置 - 使用 AdamW 优化器,批量大小为 16,初始学习率为 10⁻⁴,权重衰减为 10⁻⁴。 - 训练轮数设为 120,100 轮后学习率衰减。 - 序列长度 T 设为 9,使用中心帧的真实标签计算损失。 #### 6.2.3 数据增强 - 时间方向随机移动帧,非标注帧在中心时使用视觉跟踪器的边界框作为真实框。 - 随机水平翻转、缩放和裁剪训练数据。 - 采用辅助损失提升性能,最大群体大小 M 设为 12,超参数 ηv = λv = 2,ηs = λs = 1,ηu = λu = 5。 #### 6.2.4 特定数据集设置 - **集体活动数据集 - 群体活动识别评估**:训练轮数设为 10,5 轮后学习率衰减。 - **集体活动数据集 - 社会群体活动识别评估**:序列长度 T 设为 17。 ```mermaid graph LR classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px; A(数据输入):::process --> B(特征提取):::process B --> C(模型初始化):::process C --> D(训练设置):::process D --> E(数据增强):::process E --> F(特定数据集设置):::process F --> G(活动识别):::process G --> H(评估):::process ``` ## 7. 总结与展望 ### 7.1 总结 本社会群体活动识别方法通过利用可变形变压器生成有效社会群体特征,在群体活动识别和社会群体活动识别方面取得了显著的成果。在多个数据集上的实验表明,该方法具有一定的优势,尤其是在基于检测的设置中表现出色。同时,方法对群体大小的适应性和群体成员点顺序的处理也有一定的特点。 ### 7.2 展望 尽管本方法已经取得了较好的性能,但仍有一些方面可以进一步改进和拓展: - **优化训练数据**:针对特定活动和群体大小增加训练数据,以提高模型的泛化能力。 - **改进模型结构**:探索更有效的特征聚合和处理方式,进一步提升识别性能。 - **拓展应用场景**:将该方法应用到更多的实际场景中,如监控视频分析、智能体育等领域。 通过不断的优化和拓展,本方法有望在社会群体活动识别领域发挥更大的作用,为相关应用提供更准确、高效的支持。
corwn 最低0.47元/天 解锁专栏
买1年送3月
点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

张_伟_杰

人工智能专家
人工智能和大数据领域有超过10年的工作经验,拥有深厚的技术功底,曾先后就职于多家知名科技公司。职业生涯中,曾担任人工智能工程师和数据科学家,负责开发和优化各种人工智能和大数据应用。在人工智能算法和技术,包括机器学习、深度学习、自然语言处理等领域有一定的研究
最低0.47元/天 解锁专栏
买1年送3月
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看
立即解锁

专栏目录

最新推荐

阻塞 vs 非阻塞任务提交:接口设计背后的性能权衡与场景选择建议

![阻塞 vs 非阻塞任务提交:接口设计背后的性能权衡与场景选择建议](https://img-blog.csdnimg.cn/d916543b06f54eb89cc5ef87b93c7779.png) # 摘要 本文系统探讨了阻塞与非阻塞任务提交机制在并发编程中的核心作用,从基本概念出发,剖析同步与异步、阻塞与非阻塞的本质区别及其在线程行为和执行模型中的体现。文章深入研究任务调度的关键性能指标及并发模型的支持机制,结合线程池、Future/Promise、Reactor与Actor等技术,分析阻塞与非阻塞在Java线程池、Spring异步注解和Netty框架中的具体实现。通过对比不同任

MSP430G2553微控制器I2C通信应用解析

### MSP430G2553微控制器I2C通信应用解析 #### 1. 应用概述 本次应用聚焦于使用MSP430G2553微控制器进行I2C通信,构建一个集时钟、温度与湿度显示功能于一体的设备。该设备会在LCD上同时展示日期、时间、星期几、温度和湿度信息。为了实现对各项功能的控制,还会连接一个4x4键盘。 #### 2. 应用规格与行为 - **主要目标**:借助IDE Energia展示I2C通信的可能性,将所有外设连接到I2C总线。 - **主要应用**:基于RTC的时钟,显示日期、时间和星期几,其中星期几由固件根据日期计算得出。同时,设备会反馈温度和空气湿度信息,并且所有传感器都是

机器学习与神经形态芯片:从基础应用到未来展望

# 机器学习与神经形态芯片:从基础应用到未来展望 ## 1. 电子元件识别模型的训练与测试 在电子元件识别方面,电阻和晶体管的识别混淆矩阵显示,虽有 34 个晶体管被误分类为电阻,但仍正确识别了 81 个电阻。不过,这些结果还有很大的提升空间,增加训练数据集的规模能显著提高识别准确率。当前的识别精度已足以在实际应用中对系统进行测试。 ### 1.1 现场测试流程 由于 MaixDuino 仅有 2MB RAM,无法运行完整的 TensorFlow 系统。为执行模型,需将 TensorFlow 操作转换为 Maix 的 KPU 专用指令集,此转换还能优化模型,降低计算能力和内存需求。具体操作

探寻宗教语境下的语言情感与文化传承

### 探寻宗教语境下的语言情感与文化传承 #### 1. 拉埃斯塔迪教与语言文化张力 拉埃斯塔迪运动与路德教会国家教会之间存在着内在的紧张关系,这种紧张不仅仅源于语言的选择。在当地,非拉埃斯塔迪教徒常认为拉埃斯塔迪教徒觉得教会“不够好”,这是一种傲慢的表现。然而,考虑到国家教会在挪威化进程中的角色,拉埃斯塔迪祈祷屋可能象征着价值观的逆转。 拉埃斯塔迪教的价值观和身份认同通过特定的物质文化得以体现,比如穿着风格。过去,男性穿西装,女性用头巾遮住长发,不化妆、不戴首饰,穿连衣裙或裙子。不过,到了20世纪70年代,皮克耶的年轻拉埃斯塔迪女性仅在周日才遵循这种着装风格。合适的着装可以被视为一种表

历史、文化与记忆:多领域的深度探索

### 历史、文化与记忆:多领域的深度探索 #### 1. 俄罗斯相关话题 在俄罗斯,诸多话题引发关注。如在疫情期间,有报道将普京把佩切涅格人和波洛伏齐人与冠状病毒作比较的事件进行了呈现,相关报道包括《俄罗斯一周:普京、佩切涅格人与肺炎》等。关于莫斯科公国对“基辅遗产”的官方主张起源也有研究,像雅罗斯拉夫·佩伦斯基对此进行过探讨。同时,政治中世纪主义在俄罗斯也有体现,尤金·斯梅良斯基在《门口的敌人:俄罗斯风格的政治中世纪主义》中有所评论。 在信息传播方面,安德鲁·B. R. 埃利奥特指出了21世纪对中世纪的挪用现象。而在网络环境中,信息的可信度和传播性也备受关注。例如,凯特·斯塔伯德等人研

拉丁美洲与安第斯国家的弱可持续性发展分析

### 拉丁美洲与安第斯国家的弱可持续性发展分析 在当今世界,可持续发展已成为各国关注的焦点。特别是对于拉丁美洲和安第斯国家而言,如何在经济发展的同时兼顾环境和资源的可持续性,是一个亟待解决的问题。 #### 拉丁美洲弱可持续性指标 首先来看拉丁美洲部分国家的弱可持续性指标,以下是1900 - 2000年、1946 - 2000年、1970 - 2000年期间,阿根廷、巴西、智利、哥伦比亚和墨西哥的相关指标数据: | 国家 | 时间段 | NNS(%) | NNSRr(%) | GSCo2(%) | GS(%) | GSTFP(%) | GreenTFP(%) | | --- | ---

树莓派机器人与游戏硬件编程全攻略

### 树莓派机器人与游戏硬件编程全攻略 #### 1. Mecanum机器人速度控制 Mecanum机器人采用脉宽调制(PWM)来调节速度,它通过树莓派上的一个引脚连接到每个H桥配置的PWM引脚。这使得所有电机以相同速度运行,是控制该机器人最简单的方式。若要分别调节速度以实现更精细的方向控制,则可为每个H桥分配单独的引脚。 #### 2. 超声波测距传感器的使用 - **原理与用途**:超声波测距传感器,也叫距离传感器,其工作原理与汽车的停车传感器类似。它发射超声波信号,然后测量信号到达物体并反射回传感器所需的时间,以此计算与物体的距离。在机器人应用中,可用于判断机器人是否接近墙壁或其他

跨模块依赖分析难题破解:基于CodeReader的调用链全景透视4法

![CodeReader:一行一行阅读代码](https://cf4.ppt-online.org/files4/slide/c/cf1HeNXK7jCvJPwayolSxn83q09DsEWgt6U2bz/slide-5.jpg) # 摘要 跨模块依赖的复杂性在现代多语言、微服务架构中日益凸显,导致系统维护难、故障定位慢与重构风险高。本文提出CodeReader核心理念,构建调用链全景的四大透视法:静态语法解析法、动态执行追踪法、语义关联推导法与构建产物反演法,从源码结构、运行时行为、隐式语义和编译产物多维度还原真实依赖关系。通过在多语言项目中的实践,验证了四大方法在依赖提取、可视化、

【ETL流程构建】:自动化处理中国铁路SHP数据并同步至企业级GIS平台(Python+Airflow实现)

![中国铁路分布图shp格式](http://img.yun.cnhubei.com/a/10001/202309/5bd5b82a9ec442e5bd0ccce2c6b4d34a.jpeg) # 摘要 本文围绕地理空间数据ETL处理的自动化与工程化需求,系统研究了基于Python与Apache Airflow的SHP数据处理及任务编排技术。通过解析Shapefile结构并利用geopandas实现数据读写、清洗、拓扑修复与坐标转换,提升了数据质量与标准化水平;设计基于Airflow的DAG工作流,实现了ETL各阶段的任务调度、异常重试与监控告警;结合PostGIS与GeoServer,

深入理解WiFiRSSINotify类及相关技术

# 深入理解WiFiRSSINotify类及相关技术 ## 1. WiFiRSSINotify类概述 WiFiRSSINotify类是一个JavaScript类,其实质是一个宿主对象,其析构函数、构造函数和关闭函数均由本地代码实现,具体代码如下: ```javascript class WiFiRSSINotify @ "xs_wifirssinotify_destructor" { constructor(options) @ "xs_wifirssinotify_constructor"; close() @ "xs_wifirssinotify_close"; } ``