https://arxiv.org/abs/2505.04769
这篇论文只办三件事:原理、进展、挑战
0. 摘要
视觉-语言-行动(VLA)模型标志着人工智能领域的一项变革性进展,其目标是在一个统一的计算框架中融合感知、自然语言理解和具身行动能力。
这篇基础性综述对视觉-语言-行动模型的最新进展进行了全面整合,内容按五个主题构建这一快速演进领域的整体图景。
我们首先讲述了 VLA 系统的基础概念,追溯了它们从跨模态学习架构到高度集成视觉-语言模型(VLM)、行动规划器和分层控制器的通用智能体的发展过程。采用了一种严谨的文献综述方法,涵盖了过去三年中发表的 80 多个 VLA 模型(详见进展篇)。统计了他们的关键进展,包括架构创新、参数高效的训练策略,以及实时推理的加速。
我们还探索了多个应用领域,例如:人形机器人、自动驾驶、医疗与工业机器人、精准农业和增强现实导航。
本综述还讨论了该领域面临的主要挑战,包括实时控制、多模态动作表示、系统可扩展性、对未知任务的泛化能力,以及伦理部署风险。
在总结最前沿研究的基础上,我们提出了有针对性的解决方案,包括具主动性的 AI 适应机制、跨形态泛化能力,以及统一的神经-符号规划。在展望未来的部分中,我们勾勒出一个发展蓝图:VLA 模型、VLMs 和具主动性的 AI 将融合发展,推动社会契合性强、适应性高且通用的具身智能体的诞生。
1. 介绍
为什么需要VLA
在视觉-语言-行动(VLA)模型出现之前,机器人和人工智能领域的进展主要分为三个独立方向:能“看”和识别图像的视觉系统,能理解和生成文本的语言系统,以及能控制运动的行动系统。
这些系统各自表现不错,却难以协同工作,也不擅长应对新的、不可预见的情况。
如图1所示,传统的计算机视觉模型主要基于卷积神经网络(CNN),针对非常单一的任务(如物体检测或分类)专门设计,哪怕环境或目标稍有变化也要依赖大量标注数据并进行繁琐的再训练。
模型能告诉你“那是苹果”,却不懂“摘苹果”这件事该怎么做。
语言模型,尤其是大型语言模型(LLMs),在文本理解和生成方面带来了革命性进展;但它们仍只能处理语言,无法感知或推理物理世界(图1中的“果园里的成熟苹果”就是例子)。
与此同时,机器人中的行动系统主要依赖手工设计的策略或强化学习,可以实现物体操作等特定行为,但需要大量精细工程工作,而且很难在脚本化之外的场景中泛化。
图1
尽管视觉-语言模型(VLMs)通过结合视觉和语言取得了令人瞩目的多模态理解能力,但仍存在明显的集成鸿沟:无法基于多模态输入生成或执行连贯的动作。
VLM 会“看图理解描述”,却不能根据这种理解“动手干活”。
如图1进一步展示,大多数 AI 系统顶多专精两种模态——视觉-语言、视觉-行动或语言-行动——却难以将三者整合到一个统一的端到端框架中。
结果就是,产生了一个支离破碎的流水线式架构,无法灵活适应新任务或新环境,导致泛化能力脆弱、工程投入巨大。机器人可以通过视觉识别物体(“苹果”)、理解对应文本指令(“摘苹果”),或执行预定义的运动(抓取),但要将这些能力编排成流畅且可适应的行为却遥不可及。
这凸显了具身 AI 的关键瓶颈:如果没有能同时感知、理解和行动的系统,智能自主行为仍旧是难以企及的目标。弥合这些鸿沟的迫切需求,催生了 VLA 模型的出现。
VLA的诞生
VLA 模型大约在 2021–2022 年提出,以 Google DeepMind 的 Robotic Transformer 2(RT-2)等工作为先驱,带来了一种变革性的架构,将感知、推理和控制统一于单一框架。作为对图1中所述局限的解决方案,VLA 将视觉输入、语言理解和运动控制能力融合,使具身智能体能够感知环境、理解复杂指令,并动态地执行相应动作。
早期 VLA 方法通过在视觉-语言模型中加入了 action tokens ——即机器人运动指令的数字或符号表示——实现了这种融合,从而让模型可以从成对的视觉、语言和轨迹数据中学习。这一方法论创新显著提升了机器人对未知物体的泛化能力、对新语言指令的理解能力,以及在非结构化环境中执行多步推理的能力。
通过利用整合了视觉、语言和行为信息的互联网规模的数据集,VLA 让机器人不仅能够识别并描述环境,还能在复杂动态场景中进行情境推理并执行恰当动作。图1 中从独立的视觉、语言和行动系统到集成的 VLA 模式的演进,体现了向真正适应性强、具有泛化能力的具身智能体发展的根本性转变。
综述的内容和价值
首先,综述有助于阐明区分 VLA 与先前模型的基础概念和架构原理。其次,它能系统梳理该领域的快速进展和关键里程碑,让研究者和工程师了解技术演进的轨迹。第三,深入的综述对于把 VLA 应用在现实世界中的多样化场景(从家用机器人到工业自动化和辅助技术)至关重要。此外,通过批判性地审视当前挑战(如数据效率、安全性、泛化能力和伦理考量),综述能识别出必须克服的障碍,以实现大规模部署。第五,总结这些见解有助于为更广泛的 AI 与机器人社区指明新兴研究方向和实践要点,促进协作与创新。
综述将首先详细考察关键概念基础(图2),包括 VLA 模型的定义、历史演变、多模态融合机制,以及基于语言的分词与编码策略。这些概念性的组成部分为理解 VLA 在各模态间的结构与功能奠定了基础。在此基础上,展示了(图3)“进展和性能优化”,这一块,告诉你如何更快更省地训模型。
其中包括使 VLA 更强大且更具泛化能力的架构创新,以及数据高效学习框架、参数高效建模技术和旨在降低计算开销而不牺牲性能的模型加速策略。
换句话说,就是“怎么用更少的数据、参数和时间做更多事”。
图2;图3
图4
接着,我们深入讨论了 VLA 系统面临的当前局限(图4)。这些局限包括推理瓶颈、安全顾虑、高计算需求、泛化能力受限和伦理影响。我们不仅指出这些亟待解决的挑战,还提供了针对它们的潜在解决方案的分析讨论。这三张图共同构建了一个可视化框架,支撑本文的分析。
2. VLA模型的概念
从技术层面来看,VLA 将视觉编码器(如 CNN、ViT)、语言模型(如 大型语言模型、Transformer)以及策略模块或规划器结合起来,以实现基于任务的控制。这些模型通常使用多模态融合技术——例如交叉注意力(cross-attention)、拼接嵌入(concatenated embeddings)或词元统一(token unification)——来将感官观测与文本指令对齐。与传统的视觉–运动流水线不同,VLA 支持语义落地,这使其能够进行上下文感知推理、可供性检测和时序规划。
一个典型的 VLA 模型通过相机或传感器数据观察环境,解释以语言表达的目标(例如,“拿起那个红苹果”),并输出低层或高层的动作序列。最新进展将模仿学习、强化学习或检索增强模块整合进来,以提升样本效率和泛化能力。
2.1 发展历程和时间线
从 2022 年到 2025 年,VLA 模型的快速发展可分为三个明显的演进阶段:
- 基础融合期 (2022–2023)
早期的 VLA 通过多模态融合架构奠定了基本的视觉—运动协调能力。这一阶段的核心是“把视觉–语言嵌入+运动拼起来就往前走”。虽然成功率很高,但系统只会“照本宣科”式地执行动作,缺乏对复杂、可组合任务的推理。 - 专业化与具身推理期 (2024)
第二代引入领域偏置(比如导航、驾驶)和更高效的架构,甚至开始在少样本和半遮挡环境中也能“见招拆招”。 - 泛化与安全关键部署期 (2025)
当前系统强调鲁棒性与人类对齐。2025 年的趋势是“大而全”:从形式验证到神经符号融合,从链式可供性到仿真—现实迁移,目标是让 VLA 不仅“会做”,还要“做得对”、做得安全,并能在人机共同决策中“知书达理”。
图 6 展示了 2022 至 2025 年间开发的 47 款 VLA 模型的完整时间线。
最早的一批 VLA 系统,包括 CLIPort 、Gato 、RT-1 和 VIMA ,通过将预训练的视觉-语言表征与面向任务的控制策略结合,为操控与控制奠定了基础。随后,ACT 、RT-2 和 VoxPoser 引入了视觉链式思维(chain-of-thought reasoning)与可供性(affordance)建模。
Diffusion Policy 和 Octo 等模型引入了随机建模方法和可扩展的数据处理管线。2024 年,Deer-VLA 、ReVLA 和 Uni-NaVid 等系统在领域专用化和内存效率方面进行了改进;Occllama 和 ShowUI 则针对部分可观测性和用户交互进行了优化。
这一发展轨迹在之后由更专注于机器人领域的 VLA 模型继续推动,例如 Quar-VLA 和 RoboMamba 。近期的创新重点转向泛化能力与实际部署:SafeVLA 、Humanoid-VLA 和 MoManipVLA 引入了验证机制、全身控制以及记忆系统。
Gr00t N1 和 SpatialVLA 等模型进一步推动了从仿真到现实的迁移以及空间信息的建模。整条时间线展示了 VLA 技术从模块化学习发展为通用、安全且具身智能系统的演变过程。
2.2 多模态集成:从孤立流水线到统一智能体
VLA 模型出现的核心进步在于它们能够在一个统一的架构内同时处理视觉、语言和动作,实现真正的多模态集成。
传统机器人系统将感知、自然语言理解和控制视为彼此独立的模块,通常通过手工定义的接口或数据转换来衔接。相比之下,现代 VLA 利用大规模预训练编码器和基于 Transformer 的架构,实现端到端的多模态融合。
举例来说,在“拿起那个红熟苹果”这一任务中,视觉编码器(如 ViT)会分割并识别场景中的不同对象及其属性(苹果、叶片、背景),同时语言模型(如 T5、GPT、BERT)将指令编码为高维向量。这些表示随后通过交叉注意力或联合token化方案融合,形成统一的潜在空间,为动作策略提供决策依据。
CLIPort 首次有效演示了这种多模态协同:它用 CLIP 嵌入做语义“导航”,用卷积解码器做像素级操控,直接将自然语言条件映射到动作策略。VIMA 则进一步采用 Transformer 编码器,同时处理面向对象的视觉token和指令token,实现了少样本空间推理的泛化。最近的进展更进一步,加入了时序和空间的落地:VoxPoser 做到体素级 3D 推理,RT-2 的统一 Transformer 支持对未见指令的零样本泛化,Octo 引入了记忆增强 Transformer,可进行跨场景的长时决策。
至关重要的是,VLA 为现实世界的落地提供了强有力的解决方案:Occllama 用注意力机制处理遮挡对象引用,ShowUI 则展示了面向非专业用户的自然语言交互接口。
2.3 Tokenization(标记化)与表示:VLA如何编码世界
VLA 区别于传统视觉-语言架构的核心创新在于它们基于 token 的表示框架,这让它们能够在感知空间、语言空间和物理动作空间中进行整体推理。
受到自回归生成式模型(如 transformer)的启发,现代 VLA 使用离散的 token 来统一地表示视觉、语言、内部状态和动作,并将它们映射到同一个嵌入空间。这样一来,模型不仅可以理解“要做什么”(语义推理),还可以理解“怎么做”(控制策略执行),并且整个过程可学且可组合。
Autoregressive generative models:像 GPT 一样,通过一个接一个地预测下一个 token。
Shared embedding space:所有不同类型的信息(图像片段、文字、机械臂角度、动作命令)都变成同一维度的一串数字,模型就能把它们“放”在同一种体系里理解。
Prefix Tokens、State Tokens 和 Action Tokens 共同构成了核心的离散化表示流程(Tokenization & Representation Pipeline),它将感知、状态和动作统一到一个自回归 Transformer 过程中。
- 前缀token (Prefix Tokens):编码环境和指令
前缀 token 是 VLA 模型的上下文骨架,先告诉它当前场景(图片或视频)和指令(文字),为后续推理打基础。这些标记将环境场景(通过图像或视频)和相应的自然语言指令,编码成紧凑的嵌入表示,以启发模型内部的推理。
例如,如图 7 所示,对于“将绿色积木堆放在红色托盘上”这样的任务,杂乱桌面的图像会被 ViT 或 ConvNeXt 等视觉编码器处理,而指令会由 T5 或 LLaMA 这样的语言模型进行嵌入。然后,这些视觉和语言的嵌入会被转换成一系列前缀token,奠定模型对目标和环境布局的初步理解。
Vision encoder(视觉编码器):把图片切小块、提特征。
Language model(语言模型):把文字拆 token、学词义。
这种共享表示支持跨模态对齐,使系统能够对齐视觉和语言,能把文字里的“左侧”对应到画面中的具体位置,使“语言”和“图像”真正打通。
- 状态标记(State Tokens):对机器人内部状态的编码:
除了感知外部环境,VLA 还必须了解自身的物理状态。这通过状态token来实现:它们编码了智能体(机器人)的实时配置信息——关节位置、力矩读数、抓爪状态、末端执行器姿态,甚至是周围物体的位置。在操作或移动过程中,这些token对确保情境感知和安全至关重要。
把机械臂的关节角度、力传感器数值、抓爪开合情况等信息,也当作一类 token,让模型“心里有数”。
- 动作标记(Action Tokens):自回归生成控制命令:
VLA token流程的最后一层是动作token,它们由模型自回归地产生,用来表示下一步的运动控制。每个动作token对应一个低级控制信号,如关节角度更新、力矩值、车轮速度,或高级运动原语。
图 8:展示了 VLA 模型在真实场景中如何利用前缀(prefix)、状态(state)和动作(action)token。
在机器人操作中,状态token用于探测机械臂在易碎物体附近的伸展情况,从而实现路径调整。
在导航任务中,状态token则表示 LiDAR 和里程计数据。
在苹果采摘任务中,前缀token负责引导目标理解,而动作token则生成用于定点抓取和执行的运动序列。
具体来说,在推理时,模型在前缀和状态token的条件下,一步步地解码这些动作token,实质上把 VLA 变成了一个由语言驱动的策略生成器。这种设计可以与真实的执行系统无缝对接,支持可变长度的动作序列,并能通过强化学习或模仿学习框架对模型进行微调。
值得一提的是,RT-2 和 PaLM-E 等模型就很好地体现了这种设计,将感知、指令和身体状态融合成一个统一的token流。例如,在下图 9 所示的苹果采摘任务中,模型可能会收到包含果园图像和文字指令的前缀token。状态token则描述了机器人当前的手臂姿态,以及抓爪是张开还是闭合。
然后模型会一步步地预测动作token,引导机械臂朝苹果移动,调整抓爪方向,并以合适的力度执行抓取。这种方法的妙处在于,让传统用于文本生成的 transformer,如同生成一句话那样,生成一连串物理动作——只不过,这里生成的“句子”是动作序列。
上面这个端到端循环使机器人能够理解“在绿叶旁摘下熟苹果”这样复杂的任务,并执行精确、符合环境的操作。
系统首先进行多模态输入采集,收集三类数据流:视觉观测(如 RGB-D 图像)、自然语言指令,以及机器人实时状态信息(如关节角度或速度)。每种数据流都被拆成一堆“token”,变成数值向量,方便后续处理。
图像通过 ViT 主干网络生成视觉 token,指令由 BERT 或 T5 等语言模型解析生成语言 token,状态输入则通过轻量级 MLP 编码器变为简洁的状态 token。然后,这些 token 通过跨模态注意力机制融合,模型在此过程中综合考虑对象语义、空间布局和物理约束。在图 9 中,这一步被标为“多模态融合”阶段。
融合后的表示构成后续决策的上下文基础。融合后的嵌入被送入自回归解码器(通常是一个 transformer),生成一系列动作 token。然后动作 token 被转化为控制命令并送入执行环节,该环节通过反馈机器人的新状态来闭合感知-动作循环,为下一步推理提供依据。
这种闭环机制使模型能够实时对干扰、物体移动或遮挡做出动态调整。为了给出具体实现细节,算法 1 将 VLA 的token化过程形式化。
输入:RGB-D 图像 I、自然语言指令 T 和关节角度向量 θ
过程:
图像 I 经 ViT 处理后生成 V,一组 400 个视觉token。
同时,指令 T 由 BERT 编码后得到 L,一系列 12 个语言语义token。
此外,机器人状态 θ 会通过一个多层感知机产生 64 维的状态嵌入 S。
然后,这些标记通过交叉注意力模块融合,生成一个 512 维的共享表示 F,包含完成动作所需的语义、意图和情境感知。
最后,类似 FAST 的策略解码器将融合特征映射为 50 个离散动作标记。
输出:然后再解码成电机命令 τ₁:ₙ。
如标题为“动作预测代码”的代码片段所示,解码过程采用基于 transformer 的架构实现。
# Action Prediction Code
# Python-like pseudocode
def predict_actions(fused_tokens):
transformer = Transformer(
num_layers=12,
d_model=512,
nhead=8
)
action_tokens = transformer.decode(
fused_tokens,
memory=fused_tokens
)
return detokenize(action_tokens)
Transformer 对象初始化时有 12 层、512 维和 8 个注意力头。融合后的 token 被送入解码器(decode),该解码器在前一个 token 和上下文的条件下自回归地预测下一个最可能的动作标记。
最终的电机命令序列通过对输出的动作token进行反token化得到。
这种实现方式类似大型语言模型的文本生成,但这里的“句子”是运动轨迹——将自然语言生成技术创新性地用于物理动作合成。总之,图 9、算法 1 和伪代码共同展示了 VLA 如何在一个连贯且可解释的标记空间中统一感知、指令与身体状态。
这种模块化设计使框架能够跨任务和机器人外形进行泛化,便于在真实场景中快速部署,如摘苹果、家务或移动导航。关键是,这些标记化步骤清晰且可分离,使得架构具有可扩展性,有助于在 VLA 系统中开展标记学习、分层规划或符号落地等后续研究。
2.4 数据来源与训练策略
训练 VLA 模型需要一种混合学习范式,既要融合来自网络的语义知识,也要结合机器人数据集中的任务执行信息。
如前面所述,VLA 的多模态架构必须接受多种形式的数据,以支持语言理解、视觉识别和运动控制。通常,这通过两个主要的数据来源来实现。
第一,如上图10所示,大规模的网络语料库构成了模型的语义先验基础。这些数据集包括图片-描述对(如 COCO、LAION-400M)、指令跟随集(如 HowTo100M、WebVid)和视觉问答语料(如 VQA、GQA)。
这些数据集可用于对视觉和语言编码器进行预训练,帮助模型获得对物体、动作和概念的通用表示。这一阶段常用对比学习或掩码建模目标,比如 CLIP 风格的对比学习或语言建模损失,将视觉与语言模态对齐到同一嵌入空间。
重要的是,这个阶段赋予 VLA 基础的“世界理解”,促进组合泛化、对象定位和零样本迁移。然而,仅有语义理解并不足以完成物理任务。
因此,第二阶段侧重于将模型“落地”到具身智能体中。机器人轨迹数据集——来自真实机器人或高保真模拟器——用于教模型如何将语言和感知转换为动作。例如 RoboNet、BridgeData 和 RT-X,这些数据集提供视频-动作对、关节轨迹和在自然语言指令下的环境交互。演示数据可能来自示教、遥操控或脚本化策略。
这一阶段通常采用监督学习(如行为克隆)、强化学习或模仿学习,训练自回归策略解码器根据融合后的视觉-语言-状态嵌入预测动作token。近期研究越来越多地采用多阶段或多任务训练策略。
先“通用预训练”,再“专业微调”,pi0就是这么搞得
例如,模型通常先在视觉-语言数据集上用掩码语言建模进行预训练,然后在机器人示教数据上用标记级自回归损失进行微调。
通过将语义先验与任务执行数据统一,这些学习范式使 VLA 模型能够跨任务、跨领域和跨机器人形态泛化,构成可扩展、可遵循指令且能在现实世界中稳健运行的智能体核心。通过共同微调,这些数据集被整合对齐。模型学会将视觉和语言输入映射到相应的动作序列。
这种训练范式不仅帮助模型理解对象的可供性(比如苹果可以被抓取)和动作结果(比如抬起需要力量和轨迹),还促进对新场景的泛化。如果模型学到了物体定位、抓取和语言指令执行的通用原理,那么它在厨房操作任务上训练后,也可能推断出如何在户外果园摘苹果。
Google DeepMind 的 RT-2,就在实践中展示了这一原理。RT-2 将动作生成视为一种文本生成,每个动作标记对应机器人控制空间中的一个离散命令。由于模型既在网络级多模态数据上训练,又在成千上万次机器人演示上训练,它能够灵活地理解新指令,并对新物体和任务进行零样本泛化——这是传统控制系统甚至早期多模态模型很难做到的。
2.5 自适应控制与实时执行
VLA 的另一个优势在于其能够执行自适应控制,利用传感器的实时反馈来动态调整行为。
Adaptive control(自适应控制):根据传感器数据,自动修正动作,而不是一味按预定脚本走。
这一点在果园、家庭或医院等动态、非结构化环境中尤为重要,因为意外变化(如风吹动苹果、光照变化或人进入场景)会改变任务参数。
在执行过程中,状态token会实时更新,以反映传感器输入和关节反馈,模型随后可以相应地修正其预定动作。
例如,在苹果采摘场景中,如果目标苹果稍微移动或另一个苹果进入视野,模型会动态地重新解读场景并调整抓取轨迹。这种能力模拟了人类般的适应性,是 VLA 系统相较于传统流水线式机器人学的重要优势。
原理篇结束,接下来是进展篇。