WorldVLA：世界模型实现视觉-动作双向增强，抓取精度显著提升-CSDN博客

作者丨JunCen等

编辑丨具身智能之心

本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

WorldVLA功能与定义

WorldVLA是一种将动作与图像理解和生成相结合的自回归动作世界模型。WorldVLA 在单一框架中集成了视觉 - 语言 - 动作（VLA）模型和世界模型。世界模型通过利用动作和图像理解来预测未来图像，旨在学习环境的底层物理规律以改进动作生成。同时，动作模型基于图像观察生成后续动作，辅助视觉理解，进而帮助世界模型的视觉生成。工作证明，WorldVLA 的性能优于独立的动作模型和世界模型，突显了世界模型与动作模型之间的相互增强作用。此外，我们发现当以自回归方式生成动作序列时，动作模型的性能会下降。这种现象可归因于模型对动作预测的泛化能力有限，导致早期动作的误差传播到后续动作。为解决这一问题，我们提出了一种注意力掩码策略，在生成当前动作时选择性地掩码先前动作，这在动作块生成任务中显示出显著的性能提升。

代码：https://github.com/alibaba-damo-academy/WorldVLA

领域介绍

VLA模型的发展已成为机器人动作模型研究的重要焦点。这些模型通过在大规模预训练多模态大语言模型（MLLM）的基础上增加动作头或额外的动作专家模块来生成动作。MLLM 在感知和决策方面提供了强大能力，使 VLA 模型能够在广泛的机器人任务中表现出更强的泛化能力。然而，一个显著的限制仍然存在：这些模型往往缺乏对动作的全面理解，因为动作仅被视为输出，而未被集成作为输入进行深入分析。相比之下，世界模型展示了基于当前观察和动作预测未来视觉状态的能力，从而实现对视觉信息和行为动态的双重理解。尽管有这一优势，世界模型受到无法直接生成动作输出的限制，导致功能缺口，限制了其在需要显式动作规划的场景中的应用。

为解决VLA模型和世界模型的固有局限性，这里引入了 WorldVLA，一种用于统一动作和图像理解与生成的自回归动作世界模型。如图 1 所示，WorldVLA 采用三个独立的tokenizer对图像、文本和动作进行编码。不同模态的token被设置为共享相同的词汇表，以便在单个 LLM 架构内统一跨模态的理解和生成。世界模型组件通过基于输入动作生成视觉表示来捕捉环境的底层物理动态。这种动作解释和环境物理学习的过程对于在动作模型中实现有效决策至关重要。同时，嵌入在 WorldVLA 中的动作模型优化了视觉数据的理解，从而提高了世界模型执行图像生成的精度。这种双向增强创造了一个更强大和全面的模型，能够同时理解和生成动作与图像。

动作分块和并行解码已被证明对动作模型的性能有显著影响。然而，在自回归模型中顺序生成多个动作会导致性能下降。主要原因是预训练的多模态语言模型主要接触的是图像和文本，而非动作，导致动作泛化能力有限。在自回归模型中，后续动作以先前动作为条件，误差传播成为一个关键问题，因为早期的错误预测会随着时间的推移影响后续动作。为缓解这一问题，还提出了一种动作注意力掩码策略，在生成当前动作时选择性地掩码先前动作。这种方法有效减轻了误差累积，并在动作块生成任务中产生了显著的性能提升。

在 LIBERO 基准上的实验显示WorldVLA 比具有相同主干的动作模型的抓取成功率高 4%。此外，与普通世界模型相比，WorldVLA 显示出更优越的视频生成能力，并在 LIBERO 数据集上降低了 10% 的 Fréchet 视频距离（FVD）。这些结果强调了集成世界模型和动作模型的互利性，突显了用于图像和动作理解与生成的统一框架的优势。在动作块生成的背景下，当采用传统的自回归方法时，抓取成功率会下降 10% 到 50%。然而，我们的注意力掩码策略的实施显著缓解了这种下降，在抓取成功率上产生了 4% 到 23% 的提升。

贡献如下：

提出了 WorldVLA，一种将动作和图像理解与生成相结合的自回归动作世界模型。
为自回归模型中的动作块生成任务引入了一种动作注意力掩码策略，解决了顺序生成多个动作时动作误差累积的挑战。
实验表明，WorldVLA 优于独立的动作模型和世界模型，突显了世界模型和动作模型之间的相互增强作用。此外，动作注意力掩码策略解决了生成动作块时的性能退化问题，并显著提高了抓取性能。

WorldVLA方法

1）问题表述

这里我们解决了学习一个能够同时执行动作预测和世界状态预测的统一模型的挑战。定义了两个主要组件：动作模型（或策略模型）π_θ 和世界模型 f_φ。动作模型负责基于图像观察历史和语言指令 l 生成动作。同时，世界模型基于观察历史序列和相应的动作序列预测下一帧。

我们的目标是开发一个集成的动作 - 世界模型，将这两个功能统一起来。模型应该能够像策略模型一样预测动作，也能像世界模型一样预测未来状态。通过学习这样的统一模型，我们旨在实现一个紧凑高效的框架，利用共享表示进行决策和环境建模。

2）架构

自回归动作世界模型的整体架构如图 2 所示。从 Chameleon 初始化模型，因为它是一个用于图像理解和生成的统一模型。涉及三个tokenizer，包括图像tokenizer、文本tokenizer和动作tokenizer。图像tokenizer是一个 VQ-GAN 模型，带有针对特定图像区域（如面部和显著对象）的额外感知损失。图像tokenizer的压缩比为 16，codebook大小为 8192。对于 256×256 图像，图像tokenizer生成 256 个token，对于 512×512 图像，生成 1024 个token。动作tokenizer将连续机器人动作的每个维度离散化为 256 个箱中的一个，箱宽度由训练数据的范围确定。动作表示为 7 个token，包括 3 个相对位置、3 个相对角度和 1 个绝对抓取器状态。文本tokenizer是一个训练过的 BPE tokenizer，词汇量为 65,536，其中包括 8192 个图像token和 256 个动作token。所有文本、动作和图像都被离散化为token，并在自回归方式下训练。

3）训练策略

混合动作模型数据和世界模型数据来训练 WorldVLA。引入世界模型数据来增强动作生成有三个主要原因。首先，世界模型通过学习基于当前状态和应用的动作预测未来观察来获得对环境物理的理解。这种环境物理的学习表示对操纵任务有帮助。其次，世界模型使系统能够模拟和评估候选动作的潜在结果，从而有助于避免可能导致不利状态的动作。第三，世界模型需要对动作输入进行精确解释，这反过来支持动作模型产生更有效和上下文合适的动作。另一方面，动作模型增强了视觉理解，进而支持世界模型的视觉生成能力。

动作模型数据

动作模型的任务是在给定文本指令和图像观察的情况下生成动作。文本输入是 “What action should the robot take to + 任务指令 + ?”。整体token序列包含文本、图像和动作token，以及相应的开始和结束符号。输入包含 M 个图像，输出包含 K 个动作。我们只计算动作token的损失。

世界模型数据

世界模型的任务是在给定当前图像观察和动作的情况下生成下一图像帧。它不需要任务指令，因为动作本身可以完全确定下一状态。文本输入是 “Generate the next frame based on the current image and the action.”。基于动作的下一帧预测重复 N 次，我们只计算生成的图像token的损失。

注意力掩码

自回归模型中的标准注意力机制通常采用因果注意力掩码，该掩码限制当前token只能访问来自先前token的信息，排除任何后续token。然而，这种传统配置被证明不足以生成动作块，即多个连续动作。虽然基础 MLLM 由于在各种数据集上的大规模预训练而在图像和文本领域表现出强大的泛化能力，但其在动作领域的有效泛化能力相对有限。因此，在默认注意力掩码下，源自早期动作的误差会传播到后续动作，导致性能下降。为解决这一限制，这里引入了一种专为动作生成设计的替代注意力掩码。这种修改后的掩码确保当前动作仅依赖于文本和视觉输入，同时禁止访问先前动作。这种设计使自回归框架能够并行生成多个动作。世界模型部分遵循传统的因果注意力掩码。

训练目标

混合动作模型数据和世界模型数据，使自回归动作世界模型能够同时作为动作模型和世界模型。损失函数为动作模型数据和世界模型数据的交叉熵损失之和，其中使用 α 来平衡损失贡献，因为图像token数量远多于动作token。

实验结果

1）评估基准

基准与数据集

在实验中使用 LIBERO 基准。LIBERO 基准包含多个子任务，分别关注空间关系、物体识别、程序学习、长视距任务等。首先过滤掉不成功的记录轨迹和无操作动作。考虑到世界模型评估需要地面真实配对的视频和动作数据，我们将 90% 的轨迹作为训练集，剩余 10% 的轨迹作为验证集。默认情况下，训练集用于模型训练，但在特定表格中使用所有可用数据以确保公平比较。

基线

有两种动作模型，包括连续动作模型和离散动作模型。连续动作模型并行生成多个动作，并使用 L1 回归损失进行训练。基于扩散的动作模型使用扩散过程生成动作。一些模型使用动作头一次直接输出多个动作。离散动作模型将动作视为类似于文本的token，动作以自回归方式生成。离散模型本质上表现较差，因为动作的token化过程可能导致信息丢失。

训练设置

动作模型使用默认输入图像数 M=2。在默认配置下，对于不同任务设置不同的动作块大小。为了最小化计算开销，世界模型以单轮 N=1 运行。参数 α 在实验设置中固定为 0.04。

评测指标

对于动作模型评估，每个任务在不同初始状态下评估 50 次滚动，并记录成功率（SR）。对于世界模型评估，我们使用验证集并记录 FVD、PSNR、SSIM 和 LPIPS 值。

2）评估结果与讨论

基准结果

实验结果表明，所提出的 WorldVLA 模型即使在没有预训练的情况下也表现出优于离散对比模型的性能。这一结果显示了 WorldVLA 设计的有效性。此外，观察到图像分辨率与模型性能之间存在正相关。更高的分辨率自然提供了更详细的视觉信息水平，这对于机器人抓取任务尤其重要，因为它需要高操作精度。

世界模型帮助动作模型

定量结果表明，世界模型的集成显著提高了动作模型的性能。世界模型的基本功能涉及基于当前状态和给定动作预测环境的后续状态，这种生成过程本质上促进了对系统底层物理动态的理解的获取，这是在诸如抓取等灵巧操纵任务中成功执行的关键前提。此外，世界模型赋予系统前瞻性模拟的能力，使其能够预测潜在动作的后果，优化动作选择以最大化任务成功的概率。

动作模型帮助世界模型

实验表明，动作世界模型在生成质量方面优于纯世界模型，特别是在生成更长的视频序列时。动作模型基于输入图像导出动作，有助于更准确的视觉解释，同时生成动作的过程增强了对底层行为模式的理解，支持世界模型有效预测未来状态。

采用提出的注意力掩码的动作块生成

多个动作的同时生成对于实现有效和高效的抓取至关重要。然而，我们观察到，顺序生成动作的自回归方法会降低模型性能，随着动作块变长，抓取成功率逐渐下降。这是因为后续动作过度依赖先前动作，而动作模态的泛化能力有限，导致误差累积。所提出的注意力掩码机制确保每个动作独立生成，仅由视觉输入决定，减轻了动作序列内的误差传播问题，在更长的块长度下表现更优。但动作块过长时，机器人调整策略的能力受限，仍会导致性能下降。