更新中……
摘要
现有工作的不足
- 大多
依赖训练深度模型
(就是有监督、无监督那些) - 基于训练的方法往往是
特定于领域
的,如果想更改领域将涉及数据收集和模型训练,这个成本比较高
提出LAVAD
即LAVAD
- language-based video anomaly detection,不涉及数据收集和模型训练,利用预训练的大型语言模型(LLMs
- large language models)和视觉语言模型(VLMs
- vision-language models)
- 利用基于
VLMs的字幕模型
(VLM-based captioning models)为测试视频的每一帧生成文本描述 - 设计了一种
提示机制
(prompting mechanism),用于解锁LLMs在时间聚合和异常评分估计方面的能力,使LLMs成为有效的视频异常检测器 - 利用
与模态对齐的VLMs
,并提出了基于跨模态相似性(cross-modal similarity)的有效技术,用于清理噪声字幕和细化基于LLMs的异常评分
实验结果
在两个具有真实世界监控场景的大型数据集(UCF-Crime和XD-Violence)上LAVAD均优于无监督和单类VAD方法(unsupervised and one-class methods)
一、引言
1.1 VAD任务的挑战性
- 异常通常是未定义的
- 依赖于上下文
- 在现实世界中很少发生
1.2 SOTA方法的不足
- 目前最先进的方法包括:
- 全监督(fully-supervised):对正常和异常视频的帧级监督
- 弱监督(weakly-supervised):对正常和异常视频的视频级监督
- 单类(one-class):只有正常的视频
- 无监督(unsupervised):没有标记视频
- 它们的缺点:
- 手工打标的成本太高
- 无监督虽然不需要打标,但是他提出的这种假设(即假设异常视频构成训练数据的一部分),在没有人为干预的情况下是不可靠的
- 具有局限性。都需要一个训练程序来建立一个精确的VAD系统,即没有泛化性(泛化性是指在特定数据集上训练的VAD模型往往在不同设置(例如,日光与夜景)下录制的视频中表现不佳)
- 数据收集难。特别是在某些特定领域,例如视频监控的隐私问题等
总结来说:①数据收集难,涉及隐私;②模型的泛化问题;③打标成本高。 \color{red}{总结来说:①数据收集难,涉及隐私;②模型的泛化问题;③打标成本高。} 总结来说:①数据收集难,涉及隐私;②模型的泛化问题;③打标成本高。
图1: 方法对比。左侧是四个目前最先进的方法,右侧是本文提出的方法
1.3 提出LAVAD
- 提出利用大型基础模型(large foundation models)的以下特点解决“对目标设定
缺乏明确的视觉先验
”的问题(就是指的模型没有提前学到过关于异常或者正常的相关知识)- 泛化能力
- 知识封装能力
- 提出将现有的视觉语言模型(VLMs)与大型语言模型(LLMs)结合起来解决无训练的VAD(training-free VAD)
- 提出了第一种无需训练的基于语言的VAD方法(LAVAD, LAnguage-based VAD method),联合使用预训练好的LLMs和VLMs进行VAD
- 利用现成的
字幕模型
(基于VLMs)为测试视频的每一帧生成文本
描述 - 引入基于视频中字幕和帧之间的
跨模态相似性
的清洗过程(基于VLMs)来解决
字幕中的潜在噪声
- 使用LLMs
总结时间窗口
的字幕以捕获场景的动态内容。该总结用于提示LLMs为每一帧提供异常分数。然后通过将具有语义相似的总结的帧之间的异常分数聚合在一起,进一步改进该分数
- 在两个基准数据集(UCF-Crime和XD-Violence)上LAVAD均优于无监督和单类VAD方法
- 利用现成的
1.4 主要贡献
-
首次研究了无训练VAD问题
-
提出LAVAD,是第一个使用LLMs从场景描述中检测异常的方法
-
引入新技术(基于VLM的跨模态相似性)
- 减轻噪声字幕
- 改进基于LLM的异常分数
-
提供了
新范式
(不使用特定任务监督和训练的视角去解决VAD问题)
二、相关工作
- 本文完全避免了收集数据,仅通过利用现有的大型基础模型来实现VAD任务
- 本文利用LLM和VLM联合解决VAD任务,并且不需要收集数据和训练模型
三、无训练的VAD
3.1 公式化问题
在推理时仅使用预训练的模型来估计每个视频帧 I ∈ V \mathbf I \in \mathbf V I∈V,即不涉及数据集 D \mathcal D D 的任何训练/微调
- I \mathbf I I 表示帧
- V = [ I 1 , I 2 , . . . , I M ] \mathbf V=[\mathbf I_1, \mathbf I_2, ... , \mathbf I_M] V=[I1,I2,...,IM] 表示视频,其中 M M M 表示帧数
- y y y 表示真实标签(0/1)
3.2 LLMs的异常评分能力
这里主要分析了LLMs基于视频帧的文本描述来对异常进行评分的能力。
3.2.1 评分
①首先利用SOTA字幕生成模型BLIP-2
对每一帧生成文本描述;②然后将异常评分视为分类任务,即让LLM在11个值([0, 1]之间均匀的11个值)中选择
- Φ C \Phi_{\mathbf C} ΦC 表示字幕生成模型BLIP-2
- Φ L L M \Phi_{\mathbf{LLM}} ΦLLM 表示大语言模型
- P C \mathrm{P_C} PC 表示文本提示,用于给LLM提供关于VAD的先验
- P F \mathrm{P_F} PF 表示输出格式
- ◦ ◦ ◦ 表示文本连接操作
P C \mathrm{P_C} PC:“If you were a law enforcement agency, how would you rate the scene described on a scale from 0 to 1, with 0 representing a standard scene and 1 denoting a scene with suspicious activities?”
注意: P C \mathrm{P_C} PC 不包括与异常类型有关的任何内容
3.2.2 评估
由式1可以得到异常分数,然后使用AUC
作为评价指标。
如图2,展示了在UCF-Crime的测试集
上的结果,使用了5个不同类别的CLIP-2和2个不同的LLM。同时,也提供了 弱监督的SOTA性能 和 随机性能 作为参考。
图2:在UCF-Crime的测试集上VAD任务的AUC柱状图。
- 不同的柱状图代表CLIP-2的不同类别的字幕生成模型
- 不同颜色代表了两种不同的LLMs
- 红色虚线代表弱监督的SOTA性能
- 灰色虚线代表随机性能
3.2.3 分析结果
LLMs性能比随机好,但是比SOTA性能差很多,即使是弱监督的SOTA性能。
原因可能为:
- 逐帧生成的字幕有很多噪音(如图3)
- 帧级字幕缺乏对全局的理解
图3:Llama对某视频的异常分数预测。
- 红色区域为真实发生异常的帧;淡蓝色的线为模型预测出的异常分数。
- 同时真实发生异常的帧中挑选了两帧举例,给出了这两帧的字幕。可以发现:
①红色边框的那一帧异常分数给的很高,这是因为其字幕是正确的描述了异常
②蓝色边框的那一帧给的异常分数很低,这是因为其字幕没有正确的描述异常
3.3 LAVAD方法
图4:LAVAD方法的流程。
如图4,LAVAD包括5个组件:
- Φ C : I → T \Phi_{\mathbf C}:\mathcal{I \rightarrow T} ΦC:I→T,字幕生成器,将图像映射为文本描述(在文本空间