具身智能的视觉-语言-动作模型:综述

24年5月论文“A Survey on Vision-Language-Action Models for Embodied AI”。

深度学习已在计算机视觉、自然语言处理和强化学习等许多领域取得了显著的成功。这些领域的代表性人工神经网络包括卷积神经网络、Transformers 和深度 Q-网络。在单模态神经网络的基础上,引入了许多多模态模型来解决一系列任务,例如视觉问答、图像字幕和语音识别。具身智能中指令跟随机器人策略的兴起,推动了一种多模态模型的发展,即视觉-语言-动作模型 (VLA)。这种多模态能力已成为机器人学习的基础要素。人们提出了各种方法来增强多功能性、灵活性和通用性等特性。一些模型专注于通过预训练来改进特定组件。其他模型则旨在开发善于预测低级动作的控制策略。某些 VLA 充当高级任务规划器,能够将长期任务分解为可执行的子任务。过去几年,大量 VLA 应运而生,体现了​​具身智能的快速发展。

视觉-语言-动作模型(VLA)代表一类旨在处理多模态输入的模型,结合视觉、语言和动作模态的信息。该术语最近由RT-2 [36]提出。VLA模型被开发用于解决具身智能中的指令跟随任务。与以ChatGPT [62]为代表的聊天AI不同,具身智能需要控制物理实体并与环境交互。机器人是具身智能最突出的领域。在语言为条件的机器人任务中,策略必须具备理解语言指令、视觉感知环境并生成适当动作的能力,这就需要VLA的多模态能力。相比于早期的深度强化学习方法,基于VLA的策略在复杂环境中表现出更优越的多样性、灵活性和泛化性。这使得VLA不仅适用于像工厂这样的受控环境,还适用于日常生活任务 [33]。

基于预训练的视觉基础模型、大语言模型(LLMs)和视觉-语言模型(VLMs)的成功,视觉-语言-动作模型已经证明其在应对这些挑战方面的能力。来自最新视觉编码器的预训练视觉表征,帮助VLA在感知复杂环境时提供更精确的估计,如目标类别、姿态和几何形状。随着语言模型 [36], [69]能力的增强,基于语言指令的任务规范成为可能。基础VLMs探索了将视觉模型和语言模型整合的多种方式,包括BLIP-2 [72], Flamingo [70]等。这些不同领域的创新赋予了VLA解决具身智能挑战的能力。

如图是VLA 模型的分类。“∗ 目标-状态指导”控制策略与 VLA 密切相关,但不能严格定义为 VLA,因为它们不促进语言方式的输入。

添加图片注释,不超过 140 字(可选)

如图以简要的时间线追溯从单模态模型到多模态模型的演变,为 VLA 模型的引入奠定了基础。计算机视觉领域的关键进步(蓝色)包括 ResNet [85]、ViT [86] 和 SAM [87]。自然语言处理领域的开创性工作(橙色)包括 GRU [88]、Transformer [66]、BERT [89]、ChatGPT [62] 等。强化学习(绿色)中,DQN [90]、AlphaGo [91]、PPO [92]、Dactyl [93] 和 DT [94] 做出了显著贡献。视觉语言模型已成为多模态模型的重

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值