利用大型语言模型进行视频异常检测(Harnessing Large Language Models for Training-free Video Anomaly Detection)

更新中……

摘要

现有工作的不足

  • 大多依赖训练深度模型(就是有监督、无监督那些)
  • 基于训练的方法往往是特定于领域的,如果想更改领域将涉及数据收集和模型训练,这个成本比较高

提出LAVAD

LAVAD - language-based video anomaly detection,不涉及数据收集和模型训练,利用预训练的大型语言模型(LLMs - large language models)和视觉语言模型(VLMs - vision-language models)

  • 利用基于VLMs的字幕模型(VLM-based captioning models)为测试视频的每一帧生成文本描述
  • 设计了一种提示机制(prompting mechanism),用于解锁LLMs在时间聚合和异常评分估计方面的能力,使LLMs成为有效的视频异常检测器
  • 利用与模态对齐的VLMs,并提出了基于跨模态相似性(cross-modal similarity)的有效技术,用于清理噪声字幕和细化基于LLMs的异常评分

实验结果

在两个具有真实世界监控场景的大型数据集(UCF-Crime和XD-Violence)上LAVAD均优于无监督和单类VAD方法(unsupervised and one-class methods)

一、引言

1.1 VAD任务的挑战性

  • 异常通常是未定义的
  • 依赖于上下文
  • 在现实世界中很少发生

1.2 SOTA方法的不足

  • 目前最先进的方法包括:
    • 全监督(fully-supervised):对正常和异常视频的帧级监督
    • 弱监督(weakly-supervised):对正常和异常视频的视频级监督
    • 单类(one-class):只有正常的视频
    • 无监督(unsupervised):没有标记视频
  • 它们的缺点:
    • 手工打标的成本太高
    • 无监督虽然不需要打标,但是他提出的这种假设(即假设异常视频构成训练数据的一部分),在没有人为干预的情况下是不可靠的
    • 具有局限性。都需要一个训练程序来建立一个精确的VAD系统,即没有泛化性(泛化性是指在特定数据集上训练的VAD模型往往在不同设置(例如,日光与夜景)下录制的视频中表现不佳)
    • 数据收集难。特别是在某些特定领域,例如视频监控的隐私问题等

总结来说:①数据收集难,涉及隐私;②模型的泛化问题;③打标成本高。 \color{red}{总结来说:①数据收集难,涉及隐私;②模型的泛化问题;③打标成本高。} 总结来说:数据收集难,涉及隐私;模型的泛化问题;打标成本高。

图1: 方法对比。左侧是四个目前最先进的方法,右侧是本文提出的方法

在这里插入图片描述

1.3 提出LAVAD

  • 提出利用大型基础模型(large foundation models)的以下特点解决“对目标设定缺乏明确的视觉先验”的问题(就是指的模型没有提前学到过关于异常或者正常的相关知识
    • 泛化能力
    • 知识封装能力
  • 提出将现有的视觉语言模型(VLMs)与大型语言模型(LLMs)结合起来解决无训练的VAD(training-free VAD)
  • 提出了第一种无需训练的基于语言的VAD方法(LAVAD, LAnguage-based VAD method),联合使用预训练好的LLMs和VLMs进行VAD
    • 利用现成的字幕模型(基于VLMs)为测试视频的每一帧生成文本描述
    • 引入基于视频中字幕和帧之间的跨模态相似性的清洗过程(基于VLMs)来解决字幕中的潜在噪声
    • 使用LLMs总结时间窗口的字幕以捕获场景的动态内容。该总结用于提示LLMs为每一帧提供异常分数。然后通过将具有语义相似的总结的帧之间的异常分数聚合在一起,进一步改进该分数
    • 在两个基准数据集(UCF-Crime和XD-Violence)上LAVAD均优于无监督和单类VAD方法

1.4 主要贡献

  • 首次研究了无训练VAD问题

  • 提出LAVAD,是第一个使用LLMs从场景描述中检测异常的方法

  • 引入新技术(基于VLM的跨模态相似性)

    • 减轻噪声字幕
    • 改进基于LLM的异常分数
  • 提供了新范式(不使用特定任务监督和训练的视角去解决VAD问题)

二、相关工作

  1. 本文完全避免了收集数据,仅通过利用现有的大型基础模型来实现VAD任务
  2. 本文利用LLM和VLM联合解决VAD任务,并且不需要收集数据和训练模型

三、无训练的VAD

3.1 公式化问题

在推理时仅使用预训练的模型来估计每个视频帧 I ∈ V \mathbf I \in \mathbf V IV,即不涉及数据集 D \mathcal D D 的任何训练/微调

  • I \mathbf I I 表示帧
  • V = [ I 1 , I 2 , . . . , I M ] \mathbf V=[\mathbf I_1, \mathbf I_2, ... , \mathbf I_M] V=[I1,I2,...,IM] 表示视频,其中 M M M 表示帧数
  • y y y 表示真实标签(0/1)

3.2 LLMs的异常评分能力

这里主要分析了LLMs基于视频帧的文本描述来对异常进行评分的能力。

3.2.1 评分

①首先利用SOTA字幕生成模型BLIP-2对每一帧生成文本描述;②然后将异常评分视为分类任务,即让LLM在11个值([0, 1]之间均匀的11个值)中选择
在这里插入图片描述

  • Φ C \Phi_{\mathbf C} ΦC 表示字幕生成模型BLIP-2
  • Φ L L M \Phi_{\mathbf{LLM}} ΦLLM 表示大语言模型
  • P C \mathrm{P_C} PC 表示文本提示,用于给LLM提供关于VAD的先验
  • P F \mathrm{P_F} PF 表示输出格式
  • ◦ ◦ 表示文本连接操作

P C \mathrm{P_C} PC:“If you were a law enforcement agency, how would you rate the scene described on a scale from 0 to 1, with 0 representing a standard scene and 1 denoting a scene with suspicious activities?”

注意: P C \mathrm{P_C} PC 不包括与异常类型有关的任何内容

3.2.2 评估

由式1可以得到异常分数,然后使用AUC作为评价指标。

如图2,展示了在UCF-Crime的测试集上的结果,使用了5个不同类别的CLIP-2和2个不同的LLM。同时,也提供了 弱监督的SOTA性能 和 随机性能 作为参考。

图2:在UCF-Crime的测试集上VAD任务的AUC柱状图。

  • 不同的柱状图代表CLIP-2的不同类别的字幕生成模型
  • 不同颜色代表了两种不同的LLMs
  • 红色虚线代表弱监督的SOTA性能
  • 灰色虚线代表随机性能

在这里插入图片描述

3.2.3 分析结果

LLMs性能比随机好,但是比SOTA性能差很多,即使是弱监督的SOTA性能。

原因可能为:

  1. 逐帧生成的字幕有很多噪音(如图3)
  2. 帧级字幕缺乏对全局的理解

图3:Llama对某视频的异常分数预测。

  • 红色区域为真实发生异常的帧;淡蓝色的线为模型预测出的异常分数。
  • 同时真实发生异常的帧中挑选了两帧举例,给出了这两帧的字幕。可以发现:
    ①红色边框的那一帧异常分数给的很高,这是因为其字幕是正确的描述了异常
    ②蓝色边框的那一帧给的异常分数很低,这是因为其字幕没有正确的描述异常

在这里插入图片描述

3.3 LAVAD方法

图4:LAVAD方法的流程。

在这里插入图片描述

如图4,LAVAD包括5个组件:

  1. Φ C : I → T \Phi_{\mathbf C}:\mathcal{I \rightarrow T} ΦC:IT,字幕生成器,将图像映射为文本描述(在文本空间
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值