点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊的研究团队最新的工作!面向自动驾驶的视觉-语言-动作模型综述!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
论文作者 | Sicong Jiang等
编辑 | 自动驾驶之心
“自动驾驶未来已来?”
当视觉(Vision)、语言(Language)和行动(Action)三大能力在一个模型中融合,自动驾驶的未来将走向何方?
近日,来自麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊的研究团队联合发布了全球首篇针对自动驾驶领域的视觉-语言-行动(Vision-Language-Action, VLA)模型的全面综述。这篇题为《A Survey on Vision-Language-Action Models for Autonomous Driving》的论文,系统性地梳理了VLA在自动驾驶(VLA4AD)领域的前沿进展,深入剖析了其架构演进、核心技术与未来挑战。
论文GitHub仓库已同步上线,收录了超过20个代表性模型和相关数据集。
论文链接:https://arxiv.org/abs/2506.24044
GitHub链接:
https://github.com/JohnsonJiang1996/Awesome-VLA4AD
从“端到端”到“VLA”:自动驾驶范式的演进
自动驾驶技术的发展经历了从模块化到一体化的演进。该综述将最新的自动驾驶技术发展总结为三大核心范式:
端到端自动驾驶 (End-to-End AD): 这种模式将传感器输入直接映射到驾驶动作,省去了复杂的中间模块。虽然高效,但其“黑箱”特性导致可解释性差,难以处理需要高级推理的“长尾”场景。
架构: 环境信息输入 → 端到端网络 → 驾驶动作。
用于自动驾驶的视觉语言模型 (VLMs for AD): 随着大语言模型(LLM)的兴起,研究者开始将语言的理解和推理能力引入自动驾驶。VLM能够解释复杂的交通场景、回答相关问题,显著提升了系统的可解释性和对罕见事件的泛化能力。然而,这些模型主要停留在“感知和理解”,语言输出与车辆的实际控制脱节,存在“行动鸿沟”。
架构: 环境信息输入 → VLM → 推理链/多任务 → 输出(非直接控制)。
用于自动驾驶的视觉-语言-行动模型 (VLA for AD): VLA模型是当前最前沿的范式。它在一个统一的策略中融合了视觉感知、语言理解和动作执行。VLA旨在打造能够理解高级指令、推理复杂场景并自主决策的智能车辆。VLA模型不仅能遵循“让行救护车”这类自然语言指令,还能用语言解释其决策原因,实现了感知、推理和行动的闭环。
架构: 环境信息输入 → 多模态编码器 → LLM/VLM → 动作解码器 → 驾驶动作。

VLA4AD的架构范式
一个典型的VLA4AD模型架构由“输入-处理-输出”三部分构成,旨在无缝整合环境感知、高级指令理解与最终的车辆控制。

多模态输入与语言指令 (Multimodal Inputs and Language Commands)
VLA4AD模型依赖丰富的多模态数据来理解外部环境与驾驶员意图。
视觉数据 (Visual Data): 视觉是自动驾驶系统的核心输入。技术已从早期的单前视摄像头发展到如今的多摄像头环视系统。原始图像可以被直接处理,或转换为鸟瞰图(BEV)等结构化表示,以辅助空间推理。
其他传感器数据 (Other Sensor Data): 为增强空间感知能力,系统还融合了多种传感器。包括用于精确3D结构的激光雷达(LiDAR)、用于速度估计的雷达(RADAR)、用于运动追踪的惯性测量单元(IMU)以及用于全局定位的GPS。方向盘转角、油门等本体感知数据也愈发重要。
语言输入 (Language Inputs): 语言输入的形式日趋丰富,其演进路径如下:
直接导航指令:例如“在下一个路口左转”。
环境查询:例如“现在变道安全吗?”。
任务级指令:例如,用自然语言解析交通规则或高阶目标。
对话式推理:最新的研究已支持多轮对话和基于思维链(CoT)的复杂推理,甚至包括语音指令输入。
核心架构模块 (Core Architectural Modules)
VLA4AD的核心架构包含三大模块,共同构成一个完整的处理流程。
视觉编码器 (Vision Encoder): 该模块负责将原始图像和传感器数据转换为潜在表征。通常使用如DINOv2或CLIP等大型自监督模型作为骨干网络。许多系统采用BEV投影技术,或通过点云编码器(如PointVLA)来融合3D信息。
语言处理器 (Language Processor): 该模块使用预训练的语言模型(如LLaMA2或GPT系列)来处理自然语言指令。通过指令微调或LoRA等轻量化微调策略,可以高效地让模型适应自动驾驶领域的特定知识。
动作解码器 (Action Decoder): 该模块负责生成最终的控制输出。其实现方式主要有三种:
自回归令牌器:将连续的轨迹点或离散的动作(如“加速”、“左转”)作为Token,并依次生成。
扩散模型头 (Diffusion heads):基于融合后的特征,通过采样生成连续的控制信号。
分层控制器:由一个高阶的语言规划器生成子目标(如“超车”),再由一个低阶的PID或MPC控制器来执行具体轨迹。
驾驶输出 (Driving Outputs)
VLA模型的输出形式反映了其抽象层次和操作目标,已从低阶控制演进为高阶规划。
低阶动作 (Low-Level Actions): 一部分VLA4AD系统直接预测原始控制信号,如方向盘转角、油门和刹车。这种方式优点是可以输出更精细的控制,但对感知误差敏感,且缺乏长远规划能力,并且不同车型的可拓展性较差。
轨迹规划 (Trajectory Planning): 另一些VLA自动驾驶研究输出预测轨迹或路径点。这种方式具有更好的可解释性和拓展能力s,可以由下游的MPC等规划器灵活执行。它使得VLA模型能够进行更长时程的推理,并更有效地整合多模态信息。
VLA模型的四大发展阶段与代表作横向对比
该综述创新性地将VLA4AD的发展划分为四个阶段。这四个阶段清晰地展示了语言在自动驾驶系统中角色和能力的演进:从一个被动的“解释者”,逐步成长为主动的“规划者”,最终演变为具备高级推理能力的“决策核心”。

阶段一:语言模型作为解释器 (Pre-VLA: Language Model as Explainer)
在最初的探索阶段,语言模型被用作一个被动的、用于描述的工具,其核心目标是增强自动驾驶系统的可解释性。
典型架构: 这一阶段的系统通常采用一个冻结的视觉模型(如CLIP)和一个LLM解码器。其流程是,系统感知到驾驶场景后,由语言模型生成自然语言描述,但这些描述并不直接参与车辆控制。
代表工作:
DriveGPT-4
是一个典型例子,它可以接收来自前置摄像头的单张图像,然后生成一个高阶的操纵标签(如“减速”、“左转”)或一段场景描述。核心作用: 这些文本输出有助于人类理解感知系统“看到”了什么或“打算”做什么,从而提升了系统的透明度。
局限与演进: 这种模式很快暴露了两个问题:
延迟问题:为每一帧图像生成长描述会引入显著的计算延迟。
效率低下:通用的视觉编码器会浪费算力在与驾驶不相关的图像细节上。 为了解决这些问题,研究者们提出了优化方案,如
TS-VLM
通过文本引导的注意力池化来聚焦关键区域,而DynRsl-VLM
则通过动态调整输入分辨率来平衡速度与精度。尽管效率有所提升,但一个根本性的“语义鸿沟”依然存在:描述场景不等于生成精确的驾驶指令。
阶段二:模块化VLA模型 (Modular VLA Models for AD)
随着研究的深入,语言的角色从被动的场景描述者,演变为模块化架构中主动的规划组件。语言的输入和输出开始直接为规划决策提供信息。
核心思想: 语言不再仅仅是“评论员”,而是成为了规划过程中的一个可解释的中间环节,将高级指令转化为车辆可执行的计划。
代表工作:
OpenDriveVLA 融合摄像头、激光雷达和文本路径指令(如“在教堂右转”),生成人类可读的中间路径点(如“20米后右转,然后直行”),这些路径点随后被转换为连续的轨迹。
CoVLA-Agent 能够将一个代表动作的Token(如“左转”)通过一个紧凑的MLP直接映射到一条对应的轨迹上。
DriveMoE 采用混合专家(Mixture-of-Experts)架构,利用语言线索根据当前场景动态选择最合适的子规划器,例如“超车专家”或“启停专家”。
SafeAuto 引入了以形式逻辑表达的符号化交通规则,用以验证或否决由语言驱动的计划,从而确保行为的安全性。
RAG-Driver 提出了一种检索增强的规划机制,通过从记忆库中检索相似的历史驾驶案例,来指导在模糊或长尾场景下的决策。
局限性: 尽管这些方法显著缩小了语言指令和车辆动作之间的语义差距,但它们普遍依赖于多阶段的处理流程(感知→语言规划→控制),这不仅引入了延迟,还在每个模块的边界处带来了级联错误的风险。
阶段三:统一的端到端VLA模型 (Unified End-to-End VLA Models for AD)
受益于大型多模态基础模型的出现,研究者们开始构建完全统一的网络,能够在一个单一的前向传播中,将传感器输入(以及可选的文本指令)直接映射到轨迹或控制信号。
核心思想: 在一个单一、可微分的系统中整合感知、语言理解和动作生成。
代表工作:
EMMA 在Waymo数据集上训练了一个庞大的VLM,使其能够联合执行目标检测和运动规划,通过学习一个共享的表征,实现了比分离组件更好的闭环性能。
SimLingo, LMDrive 和 CarLLaVA 基于LLaVA模型,并在CARLA模拟器中进行微调以遵循语言指令驾驶。它们引入了一种名为“行动构想”(action dreaming)的技术:模型通过改变语言指令来想象同一场景下的不同驾驶结果,从而强制建立了语言命令和最终轨迹之间的紧密耦合。
ADriver-I 利用生成式视频模型,学习了一个潜在世界模型,该模型能通过扩散(diffusion)技术预测给定动作后的未来摄像头画面,从而通过“想象”动作的后果来进行规划。
DiffVLA 结合了稀疏(路径点)和密集(占据栅格)的扩散预测,以文本场景描述为条件生成轨迹,有效地从一系列合理的安全操纵中进行采样。
局限性: 这些端到端模型虽然反应灵敏,在感觉运动映射方面表现出色,但一个新的瓶颈也随之出现:它们在长时程规划(例如,提前很远或考虑复杂应急情况)和提供细粒度决策解释方面仍然存在困难。
阶段四:推理增强的VLA模型 (Reasoning-Augmented VLA Models for AD)
这是最新的发展浪潮,它将VLM/LLM置于控制环路的核心,使模型超越了简单的规划条件,朝着长时程推理、记忆和交互性的方向发展。
核心思想: 系统不再仅仅是对传感器输入的反应,而是在输出动作之前,能够进行解释、预测和长时程的推理。
代表工作:
ORION 将一个存储了数分钟观察和动作历史的Transformer记忆模块(QT-Former)与一个LLM相结合。该LLM负责总结这段历史,并输出下一段轨迹和一个相应的自然语言解释。
Impromptu VLA 将思维链(Chain-of-Thought, CoT)与行动对齐。该模型在8万个带有专家推理步骤标注的极端场景(corner-case)片段上进行训练,使其学会在行动之前先用语言表达其决策路径,在零样本车辆任务中达到了业界顶尖水平(state-of-the-art)。
AutoVLA 在一个单一的自回归Transformer中融合了CoT推理和轨迹规划。该模型将连续的路径点令牌化为离散的“驾驶令牌”,在nuPlan和CARLA的闭环测试中取得了顶尖的成功率。
未来方向与新挑战: 这些系统预示了未来可对话的自动驾驶汽车的到来,它们能实时口头解释自己的行为。然而,新的挑战也随之浮现:如何高效索引城市规模的记忆库,如何将LLM的复杂推理控制在30Hz的控制循环内,以及如何对这种由语言调节的策略进行形式化验证。
部分代表性VLA4AD模型(2023-2025)
该综述提供了一个详细的表格,对比了各个模型的输入、输出、所用数据集和核心贡献。

数据集与基准:VLA4AD研究的基石
高质量、多样化且带有丰富标注的数据集是推动VLA4AD发展的核心燃料。该综述对当前主流的数据集和基准测试进行了系统梳理,这些资源为模型的训练、评估和比较提供了坚实的基础。

BDD100K / BDD-X: BDD100K提供了10万个来自美国的真实、多样化的驾驶视频。其子集BDD-X(约7千个片段)更进一步,为视频内容提供了与时间对齐的人类驾驶员的文本解释(Rationale),例如“因为有行人正在过马路所以减速”。这为训练和评估模型的解释能力提供了宝贵的“标准答案”,被
CoVLA-Agent
和SafeAuto
等模型所采用。nuScenes: 这是一个被广泛使用的真实世界数据集,包含1000个在波士顿和新加坡采集的驾驶场景,每个场景时长20秒。它提供了6个摄像头的环视图像、激光雷达和毫米波雷达数据,并带有完整的3D标注。尽管nuScenes本身不包含语言标注,但它丰富的传感器数据使其成为VLA4AD模型进行综合评估的重要平台。
Bench2Drive: 这是一个基于CARLA模拟器的闭环驾驶基准测试。它包含44种不同类型的场景、220条驾驶路线和一个拥有200万帧的训练集。其核心特色在于,它的评估指标能够精准分离并测试车辆的特定驾驶技能,如无保护左转、被车辆切入(cut-in)等。
DriveMoE
模型通过其专门化的混合专家架构在该基准的排行榜上名列前茅。Reason2Drive: 该数据集包含60万个视频-文本对,数据来源于nuScenes、Waymo等。其最大特点是提供了思维链(Chain-of-Thought, CoT)风格的问答标注,这些问答覆盖了从“感知”到“预测”再到“行动”的完整推理过程。它还引入了一个“一致性”指标,用于惩罚那些在多步推理中逻辑不连贯的回答。
DriveLM-Data: 此数据集专注于场景的条件推理能力,提供了基于nuScenes和CARLA场景的图结构化问答数据(共计3.4万个场景图)。
Impromptu VLA: 这是一个专门为“犄角旮旯”(corner-case)场景打造的数据集,包含了从8个公开数据集中精心筛选出的8万个驾驶片段。这些场景覆盖了密集人群、救护车、恶劣天气等非常规交通状况。每个片段都配有专家驾驶轨迹、高级指令、丰富的场景描述以及带时间戳的问答对。该项目提供了一个开放的评估服务器,研究表明,使用该数据集进行训练能够显著提升模型在闭环测试中的安全性。
NuInteract: 作为nuScenes的扩展,NuInteract为1000个多视角场景增添了密集的文本描述和与激光雷达真值紧密关联的多轮3D问答对。它有力地支持了需要跨多个摄像头进行综合理解的视觉问答(VQA)和3D推理任务。
DriveAction: 这是一个由用户贡献的真实世界基准,包含2600个驾驶场景和1.62万个带动作标签的视觉语言问答对。它覆盖了广泛的“野生”驾驶情境,并提供了独特的评估协议,该协议基于人类偏好的驾驶决策来为VLA模型打分,填补了传统感知评估套件的空白。
总结来说, 目前的VLA4AD研究已经拥有了一个覆盖全面的数据集生态系统:BDD-X
和 nuScenes
提供了大规模、多传感器的真实世界数据;Bench2Drive
和 Impromptu VLA
则注入了对安全至关重要的边缘和角落案例;而 Reason2Drive
、DriveLM
、NuInteract
和 DriveAction
提供了进行细粒度推理和对齐人类行为所需的结构化语言数据。充分利用这些互补的资源,对于训练和评估下一代VLA4AD模型至关重要。
挑战与未来展望:VLA自动驾驶的机遇与荆棘
尽管VLA4AD取得了显著进展,但距离大规模实际部署仍面临诸多挑战。该综述详细剖析了当前面临的核心难题,并为下一阶段的研究勾勒出清晰的蓝图。
六大开放性挑战:通往大规模部署的必经之路
鲁棒性与可靠性 (Robustness & Reliability)
新的失效模式: 语言模型的引入开启了新的故障可能,例如模型可能会“幻觉”出不存在的危险,或错误地解析人类的口头俚语指令(如“floor it”,意为“踩满油门”)。
环境与语言噪声: 模型必须在恶劣天气(如雨、雪、眩光)导致的传感器数据损坏,以及充满噪声的语言指令下保持稳定。
安全验证的缺失: 虽然像
SafeAuto
模型那样引入基于逻辑的安全否决机制是第一步,但对语言控制策略进行形式化验证,以及实现“社会合规性”的驾驶策略,在很大程度上仍是未解难题。
实时性能 (Real-time Performance)
模型结构优化:采用像
TS-VLM
那样的令牌削减设计,或像DriveMoE
那样的稀疏混合专家(MoE)路由架构来减少推理时的计算量。事件驱动计算:仅在场景发生新变化时才激活计算量大的推理模块。
模型压缩:通过硬件感知的量化技术,或知识蒸馏将大型模型压缩成一个部署在车端的“微型VLA”。
计算瓶颈: 在车载计算单元上,以每秒30帧(≥30Hz)或更高的频率运行一个大型视觉Transformer加上一个LLM是极其困难的。
优化方向: 目前的解决方案包括:
数据与标注瓶颈 (Data & Annotation Bottlenecks)
三模态数据稀缺: 同时包含(图像+控制+语言)三种模态的监督数据非常稀少且收集成本高昂。例如,
Impromptu VLA
数据集就需要手动标注8万个驾驶片段。合成数据的局限: 尽管
SimLingo
等项目利用合成数据增强了模型训练,但现有数据集在非英语方言、交通俚语和具有法律效力的专业术语方面的覆盖仍然非常有限。
多模态对齐 (Multimodal Alignment)
以摄像头为中心: 当前的VLA研究工作仍然是以摄像头为中心的,对于激光雷达(LiDAR)、毫米波雷达(RADAR)、高精地图(HD-maps)以及车辆时序状态等信息的融合还处在初级阶段。
融合技术不成熟: 虽然研究者们探索了点云的BEV投影、3D令牌适配器、用语言总结历史的
ORION
模型以及检索文本化地图规则的RAG-Driver
模型,但一个有原则的、能在时间上保持一致性的异构多模态数据融合框架仍未出现。
多智能体社会复杂性 (Multi-agent Social Complexity)
协作难题: 将VLA的应用场景从简单的双车协作扩展到密集的城市交通,会立刻引发关于通信协议、信任和网络安全等一系列问题。
“交通语言”的缺失: 车辆之间应如何使用一种既受约束又足够灵活的“交通语言”(例如“我让你先行”、“前方有障碍物”)来交换意图,这是一个开放性问题。
安全与信任: 如何进行身份验证以防范恶意信息,如何通过加密的V2V通信保证安全,以及如何让车辆理解人类的驾驶手势等,都还处在早期研究阶段。
领域自适应与评估 (Domain Adaptation & Evaluation)
泛化能力不足: 从模拟器到真实世界(Sim-to-real)的有效迁移、在不同国家和地区间的泛化能力,以及在不发生“灾难性遗忘”的前提下进行持续学习,这些都是悬而未决的问题。
评估标准缺失: 现有的社区基准(如
Bench2Drive
)仅覆盖了长尾场景的一小部分。行业亟需一个统一的、由监管机构认可的“AI驾照考试”,该标准不仅要评估车辆的控制能力,还要评估其决策解释的质量。
五大未来方向:勾勒下一代自动驾驶蓝图
基础驾驶大模型 (Foundation-scale Driving Models)
宏伟愿景: 构建一个GPT风格的“驾驶骨干”基础模型。该模型通过在海量的多传感器数据(行车记录仪、激光雷达、高精地图)和文本化交通规则上进行自监督训练而得。
应用模式: 未来,汽车制造商或开发者只需通过提示工程(Prompting)或低秩适应(LoRA)等技术,用少量数据就能对这个基础模型进行微调,以适应特定的下游任务,类似于
SimLingo
/CarLLAVA
的实现方式。
神经-符号安全内核 (Neuro-symbolic Safety Kernels)
弥合差距: 纯粹的端到端神经网络难以提供绝对的安全保证。未来的趋势是将神经网络的灵活性与符号逻辑的可验证性相结合。
实现路径: 让一个VLA模型输出一个结构化的行动计划(或思维链CoT),然后由一个符号验证器来执行这个计划。这就像给VLA的“大脑”装上一个“法律顾问”,确保其每个决策都既智能又合规。
SafeAuto
和ORION
等模型已经展现了这种混合架构的雏形。
车队级持续学习 (Fleet-scale Continual Learning)
数据驱动进化: 部署在真实世界中的自动驾驶车队每天都会遇到新的危险和场景。
高效学习范式: 未来的车辆无需上传完整的原始驾驶日志,而是可以上传简洁的语言片段来描述新情况(例如,“在XX路口出现了一种新的交警手势”)。云端平台将这些信息聚合起来,用于模型的课程化更新。甚至,云端智能体还能实时回答路上车辆遇到的不确定性问题,从而在整个车队中引导知识的快速传播和共享。
标准化交通语言 (Standardised Traffic Language)
高效协作的基石: 正如航空业拥有全球统一的ICAO通话术语,广域的车辆协同也需要一套由本体驱动的、标准化的信息集(例如,定义“我方让行”、“前方有障碍物”等标准意图)。
VLA的角色: VLA模型是天生的“翻译家”,可以将原始的、混乱的感知数据,翻译成这种规范化的、可供车辆间交换的意图。而
DriveMoE
和TS-VLM
等模型展示的技术,可以确保这种通信的带宽足够低,以适用于V2V(车对车)通信链路。
跨模态社交智能 (Cross-modal Social Intelligence)
超越语言: 未来的VLA系统必须将手势、声音、交通标志等更广泛的“语言”信道纳入理解范围。
深度交互: 例如,系统需要能识别警察的手势或行人的挥手示意,并能通过车灯、车载显示屏或喇叭等方式,产生明确的、人类可读的响应。
RAG-Driver
等检索增强型规划器为此提供了思路:通过融合实时感知、符号规则和上下文信息来理解这些非语言线索。
总结
这篇综述为我们描绘了一幅清晰的VLA4AD发展路线图:从被动的解释器,到主动的规划者,再到具备长时程推理能力的智能代理。它系统地总结了现有工作,并为未来的研究指明了方向。通过整合视觉、语言与行动,我们正迈向一个更安全、透明、且与人类社会高度协同的自动驾驶新时代。
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频学习官网:www.zdjszx.comÅ