论文精读F-VLM: Open-Vocabulary Object Detection Upon Frozen Vision and Language Models-CSDN博客

本文链接：https://blog.csdn.net/wulele2/article/details/148649296

文章目录

前言
1、出发点
2、方法
3、实验
总结

前言

本文介绍篇来自Google的ICLR2023的论文：F-VLM，开源地址。

1、出发点

本篇论文想将clip这种VLM强大的zero-shot分类能力迁移给开放词汇检测任务。那么就得要求特征层包含“局部感知”和“判别特征”的能力。本文通过K-means聚类clip的Image Encoder的特征层，并将其用于分类，发现效果还不错：
在这里插入图片描述
于是作者想到直接冻结clip的特征提取层，然后微调一个检测器不就能得到一个不错的开放词汇检测器了吗。

2、方法

这里简单补充下解决的任务：模型在 $C_B$ 的检测数据上训练；在 $C_N+C_B$ 上进行评测。其中 $C_N$ 不包含在 $C_B$ 中。

2.1.训练阶段

在这里插入图片描述
整体训练过程还是很简洁的，其实可以看出是个双流的网络：
1) 图像特征部分：类似FasterRCNN的提取每个候选框 $b$ 的视觉特征，
$r_b = FasterRCNN\_Head(ROIAlign(FPN, b))$
2) 文本特征部分：为了能够任意拓展到任意个数类别，这里用的是文本特征 $t$ 和 $r_b$ 之间的余弦相似度。当然，这里作者还额外引入了一个"background"的类别，用以区分背景。
$z(r_b) = Softmax(\frac{1}{\tau}[cos(r_b, t_{bg}), cos(r_b, t_1), ... cos(r_b, t_{|C_B|})])$
注意：这里是每个 $r_b$ 都要和所有类别标签计算个相似度。然后用以分类损失和回归损失计算。

2.2.测试阶段

在这里插入图片描述
原论文的符号挺多，这里还是直接看图吧：还是双流看：
1）图像特征：在RPN得到候选框后 $b$ 后，借助ROIAlign得到FM的每个物体的特征层，然后通过VLM Pooling Layer得到 $v_i$ ，然后跟每个文本特征向量 $t_i$ 得到VLM Score；
2）文本特征：在RPN得到 $r_k$ 后，跟 $t_j$ 得到相似度，（这块跟训练阶段保持一致）.
3）然后通过几何变换公式5得到最终的置信度分数：
在这里插入图片描述

说明

这里训练跟测试感觉区别较大，即为何引入公式5，我也不清楚啥原因：原文作者解释说经过ROIAlign后的feature虽然有助于分类，但却缺乏局部感知能力，即框不够精准。于是引入公式5。
在这里插入图片描述
本人猜测：应该是在训练阶段：由于只用到了 $C_B$ ，可能过拟合到这些类别上倾向；于是在测试阶段，又额外根据候选框 $b$ 经过ROIAlign得到一些可能是 $C_N$ 的特征，毕竟clip的ImageEncoder有不错的局部感知和判别性特征能力，于是将二者的置信度结合了一下。既要不过拟合 $C_B$ 类别，也要保持泛化。仅代表个人观点。