利用变形金刚模型探寻社会群体活动识别的群体线索
立即解锁
发布时间: 2025-09-16 00:28:06 阅读量: 2 订阅数: 19 AIGC 


计算机视觉前沿进展
# 利用变形金刚模型探寻社会群体活动识别的群体线索
## 1. 评估划分
评估分为两部分:群体活动识别和社会群体活动识别。
### 1.1 群体活动识别评估
遵循基于检测的设置,使用分类准确率作为评估指标。由于方法可预测多个群体活动,需从中选一个进行识别,选择概率最高的预测活动与真实活动比较。
### 1.2 社会群体活动识别评估
不同数据集使用不同指标:
- **排球数据集**:每个场景只有一个社会群体活动,使用群体识别准确率。先按群体活动识别方式选一个群体预测,再将预测的群体成员边界框与真实框比较,预测活动正确且预测框与真实框的交并比(IoU)大于 0.5 时结果正确。
- **集体活动数据集**:每个场景有多个社会群体活动,使用平均精度均值(mAP)。预测活动正确且所有群体成员预测框与真实框 IoU 大于 0.5 时为真阳性。
## 2. 实现细节
### 2.1 特征提取与模型设置
- 使用 I3D 的 RGB 流作为骨干特征提取器,将 Mixed 3c、Mixed 4f 和 Mixed 5c 层的特征输入到可变形变压器中。
- 可变形变压器的超参数设置与 Deformable DETR 一致,Lf = 3,Dp = 256,Nq = 300。
- I3D 用 Kinetics 数据集训练的参数初始化,可变形变压器用 COCO 数据集训练的参数初始化。
### 2.2 优化器与训练设置
- 使用 AdamW 优化器,批量大小为 16,初始学习率为 10⁻⁴,权重衰减为 10⁻⁴。
- 训练轮数设为 120,100 轮后学习率衰减。
- 序列长度 T 设为 9,使用中心帧的真实标签计算损失。
### 2.3 数据增强
- 时间方向随机移动帧,非标注帧在中心时使用视觉跟踪器的边界框作为真实框。
- 随机水平翻转、缩放和裁剪训练数据。
- 采用辅助损失提升性能,最大群体大小 M 设为 12,超参数 ηv = λv = 2,ηs = λs = 1,ηu = λu = 5。
### 2.4 集体活动数据集特定设置
- **群体活动识别评估**:训练轮数设为 10,5 轮后学习率衰减,因数据集场景多样性有限,损失在几轮内收敛。
- **社会群体活动识别评估**:序列长度 T 设为 17,遵循 Ehsanpour 等人的设置。
## 3. 群体活动识别
### 3.1 与最先进方法对比
| 方法 | 排球数据集 - 活动 | 排球数据集 - 动作 | 集体活动数据集 - 活动 | 集体活动数据集 - 动作 |
| --- | --- | --- | --- | --- |
| SSU | 86.2 (90.6) | – (81.8) | – (–) | – (–) |
| stagNet | 87.6 (89.3) | – (–) | 87.9 (89.1) | – (–) |
| ARG | 91.5 (92.5) | 39.8 (83.0) | 86.1 (88.1) | 49.6 (77.3) |
| CRM | – (93.0) | – (–) | – (85.8) | – (–) |
| Actor - Transformers | – (94.4) | – (85.9) | – (92.8) | – (–) |
| Ehsanpour 等人 | 93.0 (93.1) | 41.8 (83.3) | 89.4 (89.4) | 55.9 (78.3) |
| Pramono 等人 | – (95.0) | – (83.1) | – (95.2) | – (–) |
| P2CTDM | – (92.7) | – (–) | – (96.1) | – (–) |
| DIN | – (93.6) | – (–) | – (95.9) | – (–) |
| GroupFormer | 95.0∗(95.7) | – (85.6) | 85.2∗(87.5† /96.3) | – (–) |
| 本文方法 | 96.0 (–) | 65.0 (–) | 96.5 (–) | 64.9 (–) |
注:无括号的值表示基于检测的性能,括号内的值表示使用真实边界框的性能。
从表中可知,本文方法在基于检测的设置中优于最先进方法。GroupFormer 和其他方法在使用预测边界框时性能下降,表明最新的基于区域特征的方法仍存在人员定位不完整的问题,而本文的特征生成具有优势。且与基于真实框的性能相比,本文方法表现最佳。值得注意的是,本文方法仅使用 RGB 图像作为输入,而 GroupFormer 除 RGB 数据外还利用了光流和姿态。
### 3.2 群体注释分析
使用排球数据集分析群体注释对群体活动识别的影响,比较 GroupFormer 和本文方法在有和无群体注释时的性能。
| 方法 | 注释类型 | 活动 |
| --- | --- | --- |
| GroupFormer | 原始 | 95.0∗(95.7) |
| GroupFormer | 群体 | 93.2‡(96.1∗) |
| 本文方法 | 原始 | 95.0 (–) |
| 本文方法 | 群体 | 96.0 (–) |
GroupFormer 在基于真实框的群体注释设置中表现最佳,但使用预测框时性能大幅下降,可能是群体成员检测不佳影响了识别性能。而本文方法不依赖边界框预测群体活动,即使群体成员识别不正确,性能也不会下降,在基于检测的设置中表现最佳。
## 4. 社会群体活动识别
### 4.1 与最先进方法对比
#### 4.1.1 排球数据集
| 方法 | 准确率 | 右 | 左 | 设置 | 扣球 | 传球 | 得分点 | 设置 | 扣球 | 传球 | 得分点 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| Ehsanpour 等人 | 44.5 | 17.2 | 74.0 | 49.0 | 29.9 | 19.7 | 79.6 | 25.0 | 28.4 | | |
| GroupFormer | 48.8 | 25.0 | 56.6 | 59.0 | 51.7 | 31.5 | 55.3 | 58.8 | 51.0 | | |
| 本文方法 | 60.6 | 35.9 | 68.2 | 81.9 | 50.6 | 50.6 | 53.6 | 74.3 | 56.9 | | |
本文方法在排球数据集上比其他方法有显著性能提升,表明在群体成员识别和活动识别方面都有改进。本文方法从特征图中聚合嵌入了分组线索的特征,有助于准确识别图像中不同群体成员分布的活动。
#### 4.1.2 集体活动数据集
| 方法 | mAP | 交叉 | 等待 | 排队 | 行走 | 交谈 |
| --- | --- | --- | --- | --- | --- | --- |
| Ehsanpour 等人 | 51.3 | – | – | – | – | – |
| 本文方法 | 46.0 | 49.2 | 64.5 | 54.1 | 55.6 | 6.56 |
Ehsanpour 等人的方法在集体活动数据集上表现更好,本文方法在“交谈”活动上性能较低,可能是训练数据中该活动特定群体大小样本数量少导致,测试数据中 86%“交谈”样本群体大小为 4,而训练数据中此类样本仅 57 个,占 0.8%。
### 4.2 群体大小分析
群体大小预测影响社会群体活动识别性能,比较不同方法在不同群体大小下的性能。
| 方法 | 群体大小 (训练数据比例) | 1 (36%) | 2 (21%) | 3 (19%) | 4 (6%) | 5 (5%) | 6 (12%) |
| --- | --- | --- | --- | --- | --- | --- | --- |
| Ehsanpour 等人 | | 45.3 | 48.2 | 61.2 | 27.3 | 15.8 | 32.5 |
| GroupFormer | | 57.3 | 29.6 | 58.4 | 28.4 | 44.7 | 54.4 |
| 本文方法 | | 83.6 | 42.9 | 52.4 | 26.1 | 39.5 | 63.8 |
本文方法的性能与训练数据比例有一定相关性,是依赖群体大小学习的缺点。但有一定训练数据时,在大小群体中都有竞争力,而其他两种方法只在大或小群体中有竞争力,表明本文方法对群体大小依赖性小,大规模训练数据下可取得高性能。
### 4.3 群体成员点顺序分析
群体成员点在真实点序列中按 X 坐标升序排列,比较两种排列方式的性能。
| 群体成员点顺序 | 顺序改变概率 | 准确率 |
| --- | --- | --- |
| X 坐标升序 | 7.4% | 60.6 |
| Y 坐标升序 | 13% | 55.5 |
按 X 坐标升序排列时性能更好,表中概率表示给真实边界框位置加小扰动时,点顺序改变的比例。Y 坐标升序时顺序变化更频繁,且框位置稍有差异就难预测顺序。
### 4.4 定性分析
可变形注意力模块是聚合与社会群体活动识别相关特征、生成社会群体特征的关键组件。可视化变压器解码器的注意力位置,展示最后一层中注意力权重最高的四个位置。结果表明,群体成员分布广泛时,特征通常从低分辨率特征图聚合,反之亦然,说明注意力模块能根据群体成员分布有效聚合特征,有助于提高社会群体活动识别性能。
```mermaid
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(数据输入):::process --> B(特征提取):::process
B --> C(可变形变压器):::process
C --> D(群体活动识别):::process
C --> E(社会群体活动识别):::process
D --> F(评估 - 群体活动):::process
E --> G(评估 - 社会群体活动):::process
```
综上所述,提出的社会群体活动识别方法利用可变形变压器生成有效社会群体特征,无需区域特征,使社会群体特征的有效性与人员定位无关。从特征中提取的群体成员信息简洁,可用简单的匈牙利匹配识别群体成员,实现高性能的社会群体活动识别。通过大量实验,该方法相比现有方法有显著改进。
## 5. 实验总结与优势分析
### 5.1 实验结果总结
通过上述一系列实验,我们可以总结出以下几点关键结果:
- **群体活动识别**:在基于检测的设置中,本文方法显著优于最先进的方法,即使与基于真实框的性能相比也表现最佳。并且仅使用 RGB 图像作为输入,体现了特征生成的优势。
- **社会群体活动识别**:在排球数据集上,本文方法取得了显著的性能提升,在群体成员识别和活动识别方面都有改进。但在集体活动数据集的“交谈”活动上,由于训练数据样本数量的问题,性能有待提高。
- **群体大小与顺序影响**:群体大小预测对本文方法有一定影响,但在有足够训练数据时,对不同群体大小都有较好的适应性。群体成员点按 X 坐标升序排列时,方法性能更好。
### 5.2 方法优势分析
本方法具有以下几个明显的优势:
- **特征生成优势**:不依赖于区域特征,避免了最新基于区域特征方法中人员定位不完整的问题,仅使用 RGB 图像就能生成有效的社会群体特征。
- **减少对边界框的依赖**:在群体活动识别中,不依赖边界框来预测群体活动,即使群体成员识别不准确,性能也不会大幅下降。
- **特征聚合能力**:可变形注意力模块能够根据群体成员的分布有效聚合特征,从而提高社会群体活动识别的性能。
### 5.3 性能改进方向
针对在集体活动数据集“交谈”活动上的性能问题,我们可以考虑以下改进方向:
- **增加训练数据**:收集更多特定群体大小的“交谈”活动样本,以提高模型对该活动的学习能力。
- **数据增强策略**:通过更丰富的数据增强方法,如改变场景、光照等,增加训练数据的多样性。
## 6. 方法的操作步骤与流程
### 6.1 整体流程
本方法的整体操作流程可以概括为以下几个步骤:
1. **数据输入**:准备 RGB 图像数据作为输入。
2. **特征提取**:使用 I3D 的 RGB 流作为骨干特征提取器,提取 Mixed 3c、Mixed 4f 和 Mixed 5c 层的特征。
3. **特征输入与处理**:将提取的特征输入到可变形变压器中进行处理。
4. **活动识别**:进行群体活动识别和社会群体活动识别。
5. **评估**:根据不同的数据集和评估指标,对识别结果进行评估。
### 6.2 详细操作步骤
#### 6.2.1 特征提取与模型初始化
- 使用 I3D 的 RGB 流作为骨干特征提取器,输入特征从 Mixed 3c、Mixed 4f 和 Mixed 5c 层获取。
- 可变形变压器的超参数设置为 Lf = 3,Dp = 256,Nq = 300。
- I3D 用 Kinetics 数据集训练的参数初始化,可变形变压器用 COCO 数据集训练的参数初始化。
#### 6.2.2 训练设置
- 使用 AdamW 优化器,批量大小为 16,初始学习率为 10⁻⁴,权重衰减为 10⁻⁴。
- 训练轮数设为 120,100 轮后学习率衰减。
- 序列长度 T 设为 9,使用中心帧的真实标签计算损失。
#### 6.2.3 数据增强
- 时间方向随机移动帧,非标注帧在中心时使用视觉跟踪器的边界框作为真实框。
- 随机水平翻转、缩放和裁剪训练数据。
- 采用辅助损失提升性能,最大群体大小 M 设为 12,超参数 ηv = λv = 2,ηs = λs = 1,ηu = λu = 5。
#### 6.2.4 特定数据集设置
- **集体活动数据集 - 群体活动识别评估**:训练轮数设为 10,5 轮后学习率衰减。
- **集体活动数据集 - 社会群体活动识别评估**:序列长度 T 设为 17。
```mermaid
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(数据输入):::process --> B(特征提取):::process
B --> C(模型初始化):::process
C --> D(训练设置):::process
D --> E(数据增强):::process
E --> F(特定数据集设置):::process
F --> G(活动识别):::process
G --> H(评估):::process
```
## 7. 总结与展望
### 7.1 总结
本社会群体活动识别方法通过利用可变形变压器生成有效社会群体特征,在群体活动识别和社会群体活动识别方面取得了显著的成果。在多个数据集上的实验表明,该方法具有一定的优势,尤其是在基于检测的设置中表现出色。同时,方法对群体大小的适应性和群体成员点顺序的处理也有一定的特点。
### 7.2 展望
尽管本方法已经取得了较好的性能,但仍有一些方面可以进一步改进和拓展:
- **优化训练数据**:针对特定活动和群体大小增加训练数据,以提高模型的泛化能力。
- **改进模型结构**:探索更有效的特征聚合和处理方式,进一步提升识别性能。
- **拓展应用场景**:将该方法应用到更多的实际场景中,如监控视频分析、智能体育等领域。
通过不断的优化和拓展,本方法有望在社会群体活动识别领域发挥更大的作用,为相关应用提供更准确、高效的支持。
0
0
复制全文
相关推荐








