具身智能的视觉-语言-动作模型：综述

最新推荐文章于 2025-06-21 16:45:08 发布

三谷秋水

最新推荐文章于 2025-06-21 16:45:08 发布

阅读量4.2k

点赞数 39

CC 4.0 BY-SA版权

分类专栏：智能体大模型文章标签：语言模型机器人人工智能机器学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/139206687

24年5月论文“A Survey on Vision-Language-Action Models for Embodied AI”。

深度学习已在计算机视觉、自然语言处理和强化学习等许多领域取得了显著的成功。这些领域的代表性人工神经网络包括卷积神经网络、Transformers 和深度 Q-网络。在单模态神经网络的基础上，引入了许多多模态模型来解决一系列任务，例如视觉问答、图像字幕和语音识别。具身智能中指令跟随机器人策略的兴起，推动了一种多模态模型的发展，即视觉-语言-动作模型 (VLA)。这种多模态能力已成为机器人学习的基础要素。人们提出了各种方法来增强多功能性、灵活性和通用性等特性。一些模型专注于通过预训练来改进特定组件。其他模型则旨在开发善于预测低级动作的控制策略。某些 VLA 充当高级任务规划器，能够将长期任务分解为可执行的子任务。过去几年，大量 VLA 应运而生，体现了具身智能的快速发展。

视觉-语言-动作模型（VLA）代表一类旨在处理多模态输入的模型，结合视觉、语言和动作模态的信息。该术语最近由RT-2 [36]提出。VLA模型被开发用于解决具身智能中的指令跟随任务。与以ChatGPT [62]为代表的聊天AI不同，具身智能需要控制物理实体并与环境交互。机器人是具身智能最突出的领域。在语言为条件的机器人任务中，策略必须具备理解语言指令、视觉感知环境并生成适当动作的能力，这就需要VLA的多模态能力。相比于早期的深度强化学习方法，基于VLA的策略在复杂环境中表现出更优越的多样性、灵活性和泛化性。这使得VLA不仅适用于像工厂这样的受控环境，还适用于日常生活任务 [33]。

基于预训练的视觉基础模型、大语言模型（LLMs）和视觉-语言模型（VLMs）的成功，视觉-语言-动作模型已经证明其在应对这些挑战方面的能力。来自最新视觉编码器的预训练视觉表征，帮助VLA在感知复杂环境时提供更精确的估计，如目标类别、姿态和几何形状。随着语言模型 [36], [69]能力的增强，基于语言指令的任务规范成为可能。基础VLMs探索了将视觉模型和语言模型整合的多种方式，包括BLIP-2 [72], Flamingo [70]等。这些不同领域的创新赋予了VLA解决具身智能挑战的能力。

如图是VLA 模型的分类。“∗ 目标-状态指导”控制策略与 VLA 密切相关，但不能严格定义为 VLA，因为它们不促进语言方式的输入。

添加图片注释，不超过 140 字（可选）

如图以简要的时间线追溯从单模态模型到多模态模型的演变，为 VLA 模型的引入奠定了基础。计算机视觉领域的关键进步（蓝色）包括 ResNet [85]、ViT [86] 和 SAM [87]。自然语言处理领域的开创性工作（橙色）包括 GRU [88]、Transformer [66]、BERT [89]、ChatGPT [62] 等。强化学习（绿色）中，DQN [90]、AlphaGo [91]、PPO [92]、Dactyl [93] 和 DT [94] 做出了显著贡献。视觉语言模型已成为多模态模型的重