25年5月来自吉林大学、哈佛大学、MIT、华中科技大学、南方科技大学、Lehigh大学和上海交大的论文“Agentic Robot: A Brain-Inspired Framework for Vision-Language-Action Models in Embodied Agents”。
长视域机器人操作对自主系统提出了重大挑战,要求在复杂的连续任务中具备扩展推理能力、精确执行能力和强大的错误恢复能力。目前的方法,无论是基于静态规划还是端到端的视觉运动策略,都容易在执行过程中出现错误累积,并且缺乏有效的验证机制,从而限制了它们在实际场景中的可靠性。Agentic Robot,是一个受大脑启发的框架,它通过标准化动作程序 (SAP) 解决了这些限制。SAP 是一种协调协议,用于管理整个操作任务过程中的组件交互。SAP 借鉴人类组织中的标准化操作程序 (SOP),为规划、执行和验证阶段建立了结构化的工作流程。本文架构包含三个专门的组件:(1) 一个大型推理模型,将高级指令分解为语义连贯的子目标;(2) 一个视觉-语言-动作执行器,根据实时视觉输入生成连续的控制命令;以及 (3) 一个时间验证器,通过内省评估实现自主进程和错误恢复。这种由 SAP 驱动的闭环设计支持无需外部监督的动态自验证。在 LIBERO 基准测试中,Agentic Robot 取得了最佳性能,平均成功率高达 79.6%,在长周期任务中比 SpatialVLA 高出 6.1%,比 OpenVLA 高出 7.4%。这些结果表明,SAP 驱动的专用组件之间的协调能够提升顺序操作的性能和可解释性。
概述
Agentic Robot,是一个智体框架,它将长视域操作重新表述为一个封闭的感知-推理-执行-验证循环,其灵感来自生物认知和多智体 LLM 系统 [9, 31]。借鉴管理高效人类工作流程的 SOP 理念,提出 SAP——一种协调协议,用于构建整个操作过程中的组件交互。SAP 为信息交换、进度监控和错误恢复建立明确的协议,从而能够稳健地执行复杂的操作任务。本文设计基于大型推理模型 (LRM)、视觉语言模型 (VLM) 和视觉语言动作 (VLA) 系统的最新进展。
本架构集成三个专门的组件:(1) 基于 LRM 的规划器,将高级指令分解为结构化的子目标;(2) 基于 VLA 的执行器,根据子目标和视觉输入生成连续的控制动作;以及 (3) 基于 VLM 的验证器,进行自我评估以实现自主进展或恢复。每个组件都在 SAP 框架内运行,遵循标准化接口和通信协议,以确保在整个任务执行过程中实现无缝协调。
如图所示,智体处理来自第三人称和自我中心摄像机的任务描述和 RGB 观测值。规划器按照 SAP 规范生成子目标,VLA 模型根据视觉输入将其转换为 7-DoF 动作。同时,验证器监控时间帧缓冲区,根据 SAP 验证协议确定子目标的完成情况,如果成功则转到下一个子目标,如果失败则触发标准化的恢复动作。该架构实现一系列智体步骤,每个步骤都结合 SAP 框架内的意图落地、视觉运动执行和基于感知的验证,从而无需外部监督即可进行执行纠正。
规划器:用于子目标生成的 LRM
规划器模块(记为 P)在 SAP 框架中充当高级推理组件。它按照标准化的分解协议,将任务指令 T 转换为可执行子目标的结构化序列:
{t_1, t_2, …, t_N} = P(T, I_0),
其中 I_0 表示初始视觉观察。每个子目标 t_i 构成一个完整且受约束的指令,该指令源自原子技能库 [15],该库定义了标准化的动作模板,例如:
pick up [object] | place [object] in/on [location] | turn on/off [device]
这种受约束的方法确保了与执行器的兼容性,同时保持了执行流水线的可解释性,并遵循 SAP 结构化组件交互原则。
使用最先进的大型多模态推理模型(例如 GPT-4o)来实现规划器,该模型既处理指令 T,也可选地处理用于视觉基础的图像 I0。符合 SAP 标准的提示架构包含三个结构化组件:(1) 任务前言,解释规划器在框架中的角色;(2) 完整的原子技能库,指定允许的操作类型;以及 (3) 精心挑选的少样本示例,展示正确的子目标分解。这些示例指导模型建立适当的任务边界,解决歧义,并将复杂的指令分解为 2-5 个原子步骤。通过广泛的验证,包含 1-2 个语义单元(例如动词 + 宾语或动词 + 宾语 + 位置)的子目标,证明在 SAP 框架内实现清晰度和可执行性之间的最佳平衡。
VLA 执行器:反应式视觉运动策略
执行器模块 E 是核心的视觉运动接口,它根据 SAP 执行协议将每个子目标 t_i 及其相关的视觉观测 I_tr 转换为连续的低级控制信号:
a_t = π_exec(t_i,I_tr),
其中 a_t 表示机器人的笛卡尔位移和夹持器配置。前六个维度编码平移和旋转向量,最后一个分量 g_t ∈ {0, 1} 表示二元夹持器状态。
利用 OpenVLA [14],这是一个开源的预训练 VLA 模型,可在自然语言子目标和视觉观测之间建立直接联系。该架构将大语言模型主干与视觉transformer (ViT) 相结合,以处理多模态输入并生成适当的运动指令。每个子目标都遵循原子技能库 (Atomic Skill Library) 中概述的结构化格式,使 VLA 模型能够通过理解语言指令和视觉场景内容来系统地生成动作。这种结构化方法增强了跨操作场景的兼容性和可解释性,同时将动作空间限制在物理上可行的轨迹范围内。
尽管执行器采用无状态设计,但它通过 SAP 验证循环集成了强大的错误处理功能。当执行失败时,标准化验证机制会通过可视化评估检测问题,并按照 SAP 协议触发特定的恢复操作。如果多次恢复尝试失败,框架会将任务标记为失败并暂停执行,以防止不安全行为。这种闭环错误检测机制通过减少级联错误,显著提高了系统的鲁棒性,尤其是在长周期任务中。本文方法在碗-抽屉任务上比 OpenVLA 提高了 24%,在汤-酱任务上提高了 21%,这证实了子目标级验证和恢复的有效性。
验证器:基于感知的子目标评估与恢复
验证器模块 V 通过视觉分析评估每个子目标 t_i 的成功程度,在 SAP 框架内提供关键反馈。对于每个验证步骤 t_v,它会按照两阶段评估协议生成二元响应:
yˆ_t_v = π_ver(B_t_v , t_i) → Yes or No,
其中 B_t_v = {(Ir_t_v−k, Iw_t_v−k)},k=0,…, K-1,是来自第三人称视角和腕戴式视角近期图像对的滑动缓冲区。该时间缓冲区捕捉视觉动态,例如物体位移或接触转换,通常 K = 2,帧间隔为 5。
用 Qwen2.5-VL-3B-Instruct [1] 作为验证模型来评估子目标 t_i 是否完成。验证提示遵循 SAP 的结构化格式:“根据图像序列,机器人是否已成功完成 [子目标]?” 该模型使用 LoRA [10] 在带注释的三元组 (B_t, t_i, y) 数据集上进行微调,其中 y ∈ {yes,no}。为了使验证器适应子目标级别的自我验证,用 LoRA 在一个包含约 500 个带注释三元组的紧凑数据集上对 Qwen2.5-VL-3B-Instruct 进行微调。尽管规模较小,但该数据集涵盖丰富的子目标类型和视觉场景,并利用结构化程度较高的提示来引导学习。此设置表明,即使在有限的监督下,有针对性的调整也能在闭环执行中产生有效的视觉验证。
当初始响应为 yˆ_t_v = No 时,验证器将执行二次检查以确定机器人是否卡住:
f_t = π_diag(B_t_v ) → Stuck or StillTrying,
其中 π_diag 是一个诊断模块,用于检测诸如机械臂静止、抓取失败或振荡行为等情况。如果 f_t = Stuck,则触发恢复操作:
a_t+1 = π_rec(f_t, O_t+1),
例如抬起机械手或重新调整腕部方向。然后,系统重新执行 t_i,并在下一个间隔恢复相同的两阶段验证过程。在 R_max 次恢复尝试失败后,任务将被标记为失败。
为了优化响应速度和效率,每 20 帧(即 f_ver = 0.5 Hz)进行一次验证,从而实现接近最佳的准确率(与 10 帧间隔相比仅下降 1.2%),同时将计算负载降低了 48%。与单级通过目标检查方法相比,两级验证器支持执行过程中的修正和细粒度的故障定位。
SAP:协调智体控制的标准化行动程序
在机器人操作中,缺乏结构化的协调协议常常导致执行失败,尤其是在长期任务中,累积的错误和缺乏系统性验证会导致任务中断。受已在复杂协作环境中被证实有效的标准化操作程序 (SOP) 的启发,引入标准化动作程序 (SAP),将其作为一个系统框架,将经过验证的协调模式编码到机器人智体系统中。
SAP 代表了一种在智体机器人框架内协调闭环执行的原则性方法,它通过跨感知、规划、执行和验证组件建立标准化的协调协议。其核心设计理念基于三个基本原则:(1) 模块化分解 - 复杂的操作任务被系统地分解为可管理、可验证的子目标,如图所示;(2) 结构化协调 - 组件交互遵循预定义的工作流程,而非机会性通信;(3) 自适应验证 - 系统性的检查点能够实现早期错误检测和恢复。
SAP 操作框架
每个 SAP 周期在时间 t 构成一个智体步骤,包含完整的感知-规划-执行-验证工作流程:
S_t = (O_t, t_i, a_t, yˆ_t),
其中 O_t = {I_tr, I_tw} 表示自我中心视角和第三人称视角,t_i 表示结构化任务分解中的当前子目标,a_t 表示已执行的操作,yˆ_t ∈ {Yes,No} 表示验证结果。
SAP 定义四个具有标准化接口和协调协议的专用组件:
(1) 多模态感知。在每个时间步,智体收集双视角观测数据:
O_t = {I_tr, I_tw},
这遵循标准化观测协议提供全面的工作空间理解。
(2) 制定规划。规划器 P 将任务指令 T 转换为遵循标准化分解协议的结构化可执行子目标序列:
{t_1, t_2, …, t_N} = P(T, I_0),
其中 I_0 表示初始视觉观察,每个子目标 t_i 均源自原子技能库。
(3) 反应式执行。执行器将子目标 t_i 转换为低级控制信号:
a_t = π_exec(t_i, O_t),
其中 π_exec 按照标准化执行协议将语义目标和当前视觉映射到 7-自由度动作。
(4) 时间验证。每 ∆t_v 帧(通常为20帧),验证器都会进行系统评估:
yˆt_v = π_ver(B_t_v, t_i),f_t = π_diag(B_t_v),
其中 B_t_v = {(I_tr,I_tw)} 表示最近的图像对滑动缓冲。如果 yˆ_t_v = Yes,则智体继续执行下一个子目标。如果 No,且 f_t = Stuck,则触发恢复操作:
a_t+1 = π_rec(f_t, O_t+1)。
SAP 执行由异步有限状态机 M_SAP 管理,其频率由组件决定:执行器以 10 Hz(∆t_exec = 0.1s)运行,验证器以 0.5 Hz(∆t_ver = 2s)运行。 SAP 通过模块化边界和分层反馈强制执行结构化控制循环,增强了智体的可靠性和可解释性。它支持现场校正,隔离错误并确保安全恢复,从而解决了动态和不确定操控环境中开环或端到端系统的核心局限性。
在模拟具身环境中,基于长视域操控任务评估 Agentic Robot 框架。该智体采用双摄像头感知系统:一个静态智体视角摄像头用于捕捉全局场景上下文,另一个腕戴式手眼摄像头用于捕捉局部细节。两个摄像头在每个时间步提供同步的 RGB 观测。动作空间由一个 7 维连续控制向量组成,该向量代表 6 自由度末端执行器控制以及一个二元夹持器状态。
基准测试。用 LIBERO 基准测试套件 [17] 进行评估,该套件提供一种标准化方法来评估不同环境下的指令执行操作。实验集中在四个特定的挑战子集上:LIBERO-Spatial,侧重于理解空间关系;LIBERO-Object,测试对新物体的泛化能力;LIBERO-Goal,评估抽象目标的执行;以及 LIBERO-Long,涉及扩展的顺序操控。每个子集包含 10 个不同的任务,每个任务都有 50 个人类遥控演示。
基准。我们将方法与以下通用策略进行基准测试,其中包括一些最先进的开源模型:Diffusion Policy [5]、Octo-Base [28]、OpenVLA [14]、TraceVLA [38] 和 SpatialVLA [23]。这些方法代表各种模型范式,包括基于扩散的控制(Diffusion Policy)、基于 Transformer 的视觉运动策略(Octo-Base)以及大规模视觉-语言-动作模型(OpenVLA、TraceVLA 和 SpatialVLA)。为了公平起见,沿用各自研究成果中报告的原始超参数和评估设置,未进行任何额外调整。
实施。 Agentic Robot 集成三个模块:基于 GPT-4o 的子目标分解规划器、基于 OpenVLA 的视觉运动控制执行器,以及经过微调的 Qwen2.5-VL-3B-Instruct 验证器,用于子目标完成度评估。为了进行错误恢复,在检测到故障后将机械爪提升至安全位置,然后再进行重新评估。除非另有说明,否则每 20 帧进行一次验证。
如下算法是Agentic Robot 伪代码:
如下算法是基于感知的验证器伪代码: