利用大型语言模型进行视频异常检测（Harnessing Large Language Models for Training-free Video Anomaly Detection）

温柔哥`

已于 2025-03-11 22:37:16 修改

阅读量2.1k

点赞数 18

CC 4.0 BY-SA版权

分类专栏：视频异常检测大模型文章标签：大模型视频异常检测 LAVAD VAD VLMs LLMs 无训练

于 2024-07-05 20:49:36 首次发布

本文链接：https://blog.csdn.net/lemonzjk/article/details/140197977

更新中……

摘要

现有工作的不足

大多依赖训练深度模型（就是有监督、无监督那些）
基于训练的方法往往是特定于领域的，如果想更改领域将涉及数据收集和模型训练，这个成本比较高

提出LAVAD

即LAVAD - language-based video anomaly detection，不涉及数据收集和模型训练，利用预训练的大型语言模型（LLMs - large language models）和视觉语言模型（VLMs - vision-language models）

利用基于VLMs的字幕模型（VLM-based captioning models）为测试视频的每一帧生成文本描述
设计了一种提示机制（prompting mechanism），用于解锁LLMs在时间聚合和异常评分估计方面的能力，使LLMs成为有效的视频异常检测器
利用与模态对齐的VLMs，并提出了基于跨模态相似性（cross-modal similarity）的有效技术，用于清理噪声字幕和细化基于LLMs的异常评分

实验结果

在两个具有真实世界监控场景的大型数据集(UCF-Crime和XD-Violence)上LAVAD均优于无监督和单类VAD方法（unsupervised and one-class methods）

一、引言

1.1 VAD任务的挑战性

异常通常是未定义的
依赖于上下文
在现实世界中很少发生

1.2 SOTA方法的不足

目前最先进的方法包括：
- 全监督（fully-supervised）：对正常和异常视频的帧级监督
- 弱监督（weakly-supervised）：对正常和异常视频的视频级监督
- 单类（one-class）：只有正常的视频
- 无监督（unsupervised）：没有标记视频
它们的缺点：
- 手工打标的成本太高
- 无监督虽然不需要打标，但是他提出的这种假设（即假设异常视频构成训练数据的一部分），在没有人为干预的情况下是不可靠的
- 具有局限性。都需要一个训练程序来建立一个精确的VAD系统，即没有泛化性（泛化性是指在特定数据集上训练的VAD模型往往在不同设置(例如，日光与夜景)下录制的视频中表现不佳）
- 数据收集难。特别是在某些特定领域，例如视频监控的隐私问题等

$\color{red}{总结来说：①数据收集难，涉及隐私；②模型的泛化问题；③打标成本高。}$

图1: 方法对比。左侧是四个目前最先进的方法，右侧是本文提出的方法

1.3 提出LAVAD

提出利用大型基础模型（large foundation models）的以下特点解决“对目标设定缺乏明确的视觉先验”的问题（就是指的模型没有提前学到过关于异常或者正常的相关知识）
- 泛化能力
- 知识封装能力
提出将现有的视觉语言模型(VLMs)与大型语言模型(LLMs)结合起来解决无训练的VAD（training-free VAD）
提出了第一种无需训练的基于语言的VAD方法(LAVAD, LAnguage-based VAD method)，联合使用预训练好的LLMs和VLMs进行VAD
- 利用现成的字幕模型（基于VLMs）为测试视频的每一帧生成文本描述
- 引入基于视频中字幕和帧之间的跨模态相似性的清洗过程（基于VLMs）来解决字幕中的潜在噪声
- 使用LLMs总结时间窗口的字幕以捕获场景的动态内容。该总结用于提示LLMs为每一帧提供异常分数。然后通过将具有语义相似的总结的帧之间的异常分数聚合在一起，进一步改进该分数
- 在两个基准数据集(UCF-Crime和XD-Violence)上LAVAD均优于无监督和单类VAD方法

1.4 主要贡献

首次研究了无训练VAD问题
提出LAVAD，是第一个使用LLMs从场景描述中检测异常的方法
引入新技术（基于VLM的跨模态相似性）
- 减轻噪声字幕
- 改进基于LLM的异常分数
提供了新范式（不使用特定任务监督和训练的视角去解决VAD问题）

二、相关工作

本文完全避免了收集数据，仅通过利用现有的大型基础模型来实现VAD任务
本文利用LLM和VLM联合解决VAD任务，并且不需要收集数据和训练模型

三、无训练的VAD

3.1 公式化问题

在推理时仅使用预训练的模型来估计每个视频帧 $\mathbf I \in \mathbf V$ ，即不涉及数据集 $\mathcal D$ 的任何训练/微调

$\mathbf I$ 表示帧
$\mathbf V=[\mathbf I_1, \mathbf I_2, ... , \mathbf I_M]$ 表示视频，其中 $M$ 表示帧数
$y$ 表示真实标签（0/1）

3.2 LLMs的异常评分能力

这里主要分析了LLMs基于视频帧的文本描述来对异常进行评分的能力。

3.2.1 评分

①首先利用SOTA字幕生成模型BLIP-2对每一帧生成文本描述；②然后将异常评分视为分类任务，即让LLM在11个值（[0, 1]之间均匀的11个值）中选择
在这里插入图片描述

$\Phi_{\mathbf C}$ 表示字幕生成模型BLIP-2
$\Phi_{\mathbf{LLM}}$ 表示大语言模型
$\mathrm{P_C}$ 表示文本提示，用于给LLM提供关于VAD的先验
$\mathrm{P_F}$ 表示输出格式
$◦$ 表示文本连接操作

$\mathrm{P_C}$ ：“If you were a law enforcement agency, how would you rate the scene described on a scale from 0 to 1, with 0 representing a standard scene and 1 denoting a scene with suspicious activities?”

注意： $\mathrm{P_C}$ 不包括与异常类型有关的任何内容

3.2.2 评估

由式1可以得到异常分数，然后使用AUC作为评价指标。

如图2，展示了在UCF-Crime的测试集上的结果，使用了5个不同类别的CLIP-2和2个不同的LLM。同时，也提供了弱监督的SOTA性能和随机性能作为参考。

图2：在UCF-Crime的测试集上VAD任务的AUC柱状图。

不同的柱状图代表CLIP-2的不同类别的字幕生成模型

不同颜色代表了两种不同的LLMs

红色虚线代表弱监督的SOTA性能

灰色虚线代表随机性能

3.2.3 分析结果

LLMs性能比随机好，但是比SOTA性能差很多，即使是弱监督的SOTA性能。

原因可能为：

逐帧生成的字幕有很多噪音（如图3）
帧级字幕缺乏对全局的理解

图3：Llama对某视频的异常分数预测。

红色区域为真实发生异常的帧；淡蓝色的线为模型预测出的异常分数。

同时真实发生异常的帧中挑选了两帧举例，给出了这两帧的字幕。可以发现：
①红色边框的那一帧异常分数给的很高，这是因为其字幕是正确的描述了异常
②蓝色边框的那一帧给的异常分数很低，这是因为其字幕没有正确的描述异常