余弦邂逅Softmax:视觉定位的强大基线
立即解锁
发布时间: 2025-09-03 01:00:26 阅读量: 10 订阅数: 33 AIGC 


视觉与语言的融合探索
### 余弦邂逅Softmax:视觉定位的强大基线
#### 1. 引言
随着自动驾驶技术的发展,实现五级自动驾驶需要完全去除人为控制。为了让乘客能够方便地通过自然语言指令来指挥自动驾驶汽车,视觉定位技术显得尤为重要。该技术的目标是根据给定的图像和指令,找到图像中指令所指向的区域。
过去,人们提出了两种常见的视觉定位方法:
- **学习图像和文本的协调表示**:使匹配的图像和文本对在嵌入空间中高度相关。这类方法通常使用基于边界的损失函数(如对比损失、三元组损失等)进行训练,但训练过程中需要进行难负样本挖掘,增加了训练的难度。
- **注意力建模**:在监督学习环境中,这些方法学习联合嵌入空间,并使用分类损失来定位正确的提案,甚至对每个提案周围的边界框进行细化回归。一些工作还采用了多阶段的基于注意力的推理。
本文将这两种思路结合,提出了一种简单而有效的视觉定位方法,在自动驾驶场景中取得了显著的性能提升。具体贡献如下:
- 提出了一种新颖的公式,将跨模态度量距离与给定图像上的提案级交叉熵损失相结合。
- 在Talk2Car数据集上进行实验,在测试数据集上实现了68.7%的AP50准确率,比之前的先进方法提高了8.6%。
- 进行了广泛的消融实验,为基础图像和语言嵌入网络的选择提供了依据。代码可在[此处](https://github.com/niveditarufus/CMSVG)获取。
#### 2. 相关工作
视觉定位领域有多种方法,主要可分为学习协调表示和注意力建模两类。
- **学习协调表示**:早期通过线性投影和典型相关分析来寻找图像和文本的联合表示,近期则采用深度网络学习非线性投影。这些方法使用基于边界的损失函数进行训练,但难负样本挖掘是一个挑战。
- **注意力建模**:通过学习联合嵌入空间和使用分类损失来定位正确的提案,或对边界框进行细化回归。一些方法还采用多阶段推理。
此外,在自动驾驶场景中也有相关工作。例如,Sriram等人直接根据自然语言指令回归汽车的航点,但使用的指令词汇有限。Talk2Car数据集的提出为自动驾驶场景中的视觉定位任务提供了更丰富的探索空间。Deruyttere等人将查询分解为多步推理过程,但本文的方法显著降低了视觉定位架构的复杂度,同时性能优于多个基线和现有最先进的模型。
#### 3. 提出的模型
模型主要分为两个步骤:
1. **提取区域提案**:使用目标检测器从输入图像中提取区域提案。本文使用竞赛组织者预先计算的提案,这些提案是使用CenterNet作为区域提案网络(RPN)提取的。
2. **匹配区域提案和指令**:计算区域提案的编码与指令的转换句子嵌入之间的余弦相似度值,将这些相似度值作为边界框与指令匹配程度的得分。
具体来说,假设图像 $I$ 中的一个对象由指令 $C$ 引用。从图像 $I$ 中获取一组区域提案 $R_i$($i = 1, 2, ..., P$),每个提案通过图像编码器得到特征向量 $\varphi_I(R_i)$。指令 $C$ 的句子编码特征向量经过变换 $T$ 得到 $T(\varphi_C(C))$。对于每个提案 $R_i$,其特征相似度 $S_i$ 计算公式如下:
\[S_i = \frac{\varphi_I(R_i) \cdot T(\varphi_C(C))}{|\varphi_I(R_i)||T(\varphi_C(C))|}, i = 1, 2, ..., P\]
为了估计损失 $L$,采用结合Log-Softmax损失和负对数似然损失(即交叉熵损失)的准则,公式如下:
\[\alpha = \frac{\exp (S_g)}{\sum_{i=1}^{P} \exp(S_i)}\]
\[L = -\log(\alpha)\]
其中,$S_g$ 是真实提案的得分。使用预训练网络获取初始嵌入,并在句子嵌入上学习一个变换层。模型参数使用随机梯度下降(SGD)进行调整,初始学习率较小。
#### 4. 实验与结果
##### 4.1 数据集
Talk2Car数据集包含来自nuScenes数据集的9217张图像,这些图像在新加坡或波士顿的不同天气和时间条件下拍摄。图像标注有自动驾驶汽车的自然语言指令、场景对象的边界框以及指令所指向对象的边界框。数据集还包含多个较小的测试集
0
0
复制全文
相关推荐









