上交新作FastDrive：端到端自动驾驶更快！更强！

3Ｄ视觉工坊

于 2025-07-05 00:02:42 发布

阅读量9

点赞数

CC 4.0 BY-SA版权

文章标签：自动驾驶人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247730605&idx=3&sn=cc3cc234f15a04e9c99556d72e419264&chksm=fa45aef9dfb5f8f7b6e429ae1a33e9716e6b7cd5f357a68552f14cfee79dd85818c8a061fa84&scene=126&sessionid=0

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：深蓝AI

「3D视觉从入门到精通」知识星球(点开有惊喜) ！星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

引言

最近将类人的推理能力融入到端到端自动驾驶系统中已经成为了一个前沿的研究领域。其中，基于视觉语言模型的方法已经吸引了来自工业界和学术界的广泛关注。

论文标题：Structured Labeling Enables Faster Vision-Language Models for End-to-End Autonomous Driving

论文作者：Hao Jiang, Chuan Hu, Yukang Shi, Yuan He, Ke Wang, Xi Zhang, Zhipeng Zhang

论文链接：https://www.arxiv.org/pdf/2506.05442

现有的VLM训练范式严重依赖带有自由格式的文本标注数据集，如图1(a)所示。虽然这些描述能够捕捉丰富的语义信息，但由于两种结构不同但是表达相近的句子会增加模型在学习任务中的复杂性和计算开销，导致模型无法专注核心的推理任务。此外，由于语言描述中还会存在冗余的信息，这对于自动驾驶系统的下游决策过程带来不必要的认知负荷。

图1：不同VLM算法模型训练范式比较

此外，现有的一些基准模型通常依赖于大规模的语言模型，这些模型通常包含超过70亿个参数，甚至更多以实现多模态对齐和推理。虽然超大参数VLM可能在各种基准测试中取得不错的性能，但同时存在高昂的计算成本、内存消耗和推理延迟等问题。

针对上述提到的相关问题，本文提出了一个结构化、简洁的数据集NuScenes-S，其源自于NuScenes数据集。此外，本文提出了一种紧凑的VLM基线模型，称之为FastDrive，专门为小规模参数的端到端自动驾驶方案而设计。FastDrive 通过采用思维链式过程来模拟人类驾驶员的推理策略，执行场景理解、感知、预测和决策任务，从而实现与端到端自动驾驶框架的有效结合。

本文的主要贡献如下：

本文引入一个结构化的数据集，该数据集关注与驾驶决策密切相关的关键要素，从而消除冗余信息，解决自由格式文本注释中同义表达的局限性，并提高推理效率。
本文提出了一个具有0.9B参数的紧凑型VLM基线模型，它模仿人类驾驶员的推理策略，并实现了与端到端自动驾驶框架的有效对齐。
本文针对NuScenes-S和FastDrive进行了全面的评估和广泛的实验。结果证明所提出的数据集和模型的有效性，并在NuScenes-S数据集上取得了具有竞争力的性能。

NuScenes结构化数据集

■ 场景描述

本文提出的NuScenes-S数据集中的场景描述旨在提供更全面的驾驶场景视图，解决许多现有数据集中经常被忽视或表示不足的问题。NuScenes-S中的场景描述结构清晰、简洁，包含以下关键元素：天气、交通状况、驾驶区域、交通灯、交通标志、道路状况、车道线、时间。其相关的具体细节如下所示：

天气：天气条件包含晴天、雨天、雪天、雾天以及多云
交通状况：交通状况包括低、中等
驾驶区域：驾驶区域包括交叉路口、枢纽、环岛、住宅区、人行横道、停车场
交通灯：交通灯包括绿灯、红灯和黄灯
交通标志：交通标志包括速度限制、停车、让行、禁止停车、禁止调头、禁止左转、禁止右转、禁止超车、单行线
道路状况：道路状况包括光滑、粗糙、潮湿、结冰，施工
车道线：车道线包括右转、左转、直行、直行右转、直行左转、掉头、左转调头、右转调头
时间：时间包括白天和夜间

■ 感知和预测

识别一些关键目标并预测其未来的状态对于驾驶员的决策至关重要。NuScenes-S数据集中的感知和预测任务结构如下:

目标：摄像头、2D边界框，未来状态。

相机视角：相机视角包括前向、前左、前右、后向、后左、后右
2D边界框：2D边界框包含两个对角线的坐标
未来状态：未来状态包括直行、左转、右转、轻微左转、轻微右转、停止、怠速

决策

根据感知和预测任务做出决策是驾驶员安全驾驶的最后也是关键的一步。NuScenes-S数据集中的决策任务结构如下：

决策：横向移动、纵向移动
横向移动：横向移动包括左转、右转、轻微左转、轻微右转、直行
纵向移动：加速、减速、巡航、怠速

■ 数据集的构建

数据集的整体构建过程如图2所示。具体来说，在场景描述方面，本文首先通过GPT和人工对场景信息进行标注，然后比较GPT和人工标注的结果，找出差异，并由人工标注对标注进行细化。在感知和预测任务中，本文首先定义一些规则来提取关键目标，然后使用VLM和人工同步对关键目标进行标注。最后，基于规则和人工注释对决策任务进行注释，以获得初始注释，然后由人工注释通过比较优化进一步完善。