余弦邂逅Softmax：视觉定位的强大基线

立即解锁

发布时间: 2025-09-03 01:00:26 阅读量: 10 订阅数: 33

视觉与语言的融合探索

### 余弦邂逅Softmax：视觉定位的强大基线 #### 1. 引言随着自动驾驶技术的发展，实现五级自动驾驶需要完全去除人为控制。为了让乘客能够方便地通过自然语言指令来指挥自动驾驶汽车，视觉定位技术显得尤为重要。该技术的目标是根据给定的图像和指令，找到图像中指令所指向的区域。过去，人们提出了两种常见的视觉定位方法： - **学习图像和文本的协调表示**：使匹配的图像和文本对在嵌入空间中高度相关。这类方法通常使用基于边界的损失函数（如对比损失、三元组损失等）进行训练，但训练过程中需要进行难负样本挖掘，增加了训练的难度。 - **注意力建模**：在监督学习环境中，这些方法学习联合嵌入空间，并使用分类损失来定位正确的提案，甚至对每个提案周围的边界框进行细化回归。一些工作还采用了多阶段的基于注意力的推理。本文将这两种思路结合，提出了一种简单而有效的视觉定位方法，在自动驾驶场景中取得了显著的性能提升。具体贡献如下： - 提出了一种新颖的公式，将跨模态度量距离与给定图像上的提案级交叉熵损失相结合。 - 在Talk2Car数据集上进行实验，在测试数据集上实现了68.7%的AP50准确率，比之前的先进方法提高了8.6%。 - 进行了广泛的消融实验，为基础图像和语言嵌入网络的选择提供了依据。代码可在[此处](https://github.com/niveditarufus/CMSVG)获取。 #### 2. 相关工作视觉定位领域有多种方法，主要可分为学习协调表示和注意力建模两类。 - **学习协调表示**：早期通过线性投影和典型相关分析来寻找图像和文本的联合表示，近期则采用深度网络学习非线性投影。这些方法使用基于边界的损失函数进行训练，但难负样本挖掘是一个挑战。 - **注意力建模**：通过学习联合嵌入空间和使用分类损失来定位正确的提案，或对边界框进行细化回归。一些方法还采用多阶段推理。此外，在自动驾驶场景中也有相关工作。例如，Sriram等人直接根据自然语言指令回归汽车的航点，但使用的指令词汇有限。Talk2Car数据集的提出为自动驾驶场景中的视觉定位任务提供了更丰富的探索空间。Deruyttere等人将查询分解为多步推理过程，但本文的方法显著降低了视觉定位架构的复杂度，同时性能优于多个基线和现有最先进的模型。 #### 3. 提出的模型模型主要分为两个步骤： 1. **提取区域提案**：使用目标检测器从输入图像中提取区域提案。本文使用竞赛组织者预先计算的提案，这些提案是使用CenterNet作为区域提案网络（RPN）提取的。 2. **匹配区域提案和指令**：计算区域提案的编码与指令的转换句子嵌入之间的余弦相似度值，将这些相似度值作为边界框与指令匹配程度的得分。具体来说，假设图像 $I$ 中的一个对象由指令 $C$ 引用。从图像 $I$ 中获取一组区域提案 $R_i$（$i = 1, 2, ..., P$），每个提案通过图像编码器得到特征向量 $\varphi_I(R_i)$。指令 $C$ 的句子编码特征向量经过变换 $T$ 得到 $T(\varphi_C(C))$。对于每个提案 $R_i$，其特征相似度 $S_i$ 计算公式如下： \[S_i = \frac{\varphi_I(R_i) \cdot T(\varphi_C(C))}{|\varphi_I(R_i)||T(\varphi_C(C))|}, i = 1, 2, ..., P\] 为了估计损失 $L$，采用结合Log-Softmax损失和负对数似然损失（即交叉熵损失）的准则，公式如下： \[\alpha = \frac{\exp (S_g)}{\sum_{i=1}^{P} \exp(S_i)}\] \[L = -\log(\alpha)\] 其中，$S_g$ 是真实提案的得分。使用预训练网络获取初始嵌入，并在句子嵌入上学习一个变换层。模型参数使用随机梯度下降（SGD）进行调整，初始学习率较小。 #### 4. 实验与结果 ##### 4.1 数据集 Talk2Car数据集包含来自nuScenes数据集的9217张图像，这些图像在新加坡或波士顿的不同天气和时间条件下拍摄。图像标注有自动驾驶汽车的自然语言指令、场景对象的边界框以及指令所指向对象的边界框。数据集还包含多个较小的测试集

最低0.47元/天解锁专栏

买1年送3月

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

余弦邂逅Softmax：视觉定位的强大基线

相关推荐

专栏目录

余弦邂逅Softmax：视觉定位的强大基线

相关推荐

余弦波：绘制余弦波-matlab开发

余弦交叉相似度：时间序列余弦交叉相似度，显性滞后和最大值-matlab开发

更改余弦采样间隔：更改采样间隔如何影响余弦波的示例。 没有完成 zoh-matlab开发

三相可控硅整流器的余弦点火方案：三相变流器的余弦点火方案。-matlab开发

神经网络的正弦余弦算法优化：与门输入的神经网络权重和偏置优化-matlab开发

连续余弦和离散余弦：在连续和离散时间内产生余弦信号。-matlab开发

余弦分析：使用最小二乘法将余弦曲线拟合到时间序列-matlab开发

JPEG 基线编码器：此基线使用基于离散余弦变换 (DCT) 的编码方案。-matlab开发

欧拉角、正交变换、方向余弦矩阵：根据给定的方向余弦矩阵计算欧拉角。-matlab开发

softmax_variants:适用于softmax变体的PyTorch代码

05-Java基础概念-数据类型

【微擎小程序】租房买房到码科小程序 2.2.9.zip

专栏目录

最新推荐

信息系统集成与测试实战

开源安全工具：Vuls与CrowdSec的深入剖析

Ansible高级技术与最佳实践

实时资源管理：Elixir中的CPU与内存优化

轻量级HTTP服务器与容器化部署实践

容器部署与管理实战指南

RHEL9系统存储、交换空间管理与进程监控指南

PowerShell7在Linux、macOS和树莓派上的应用指南

基于属性测试的深入解析与策略探讨

构建交互式番茄钟应用的界面与功能

更改余弦采样间隔：更改采样间隔如何影响余弦波的示例。没有完成 zoh-matlab开发