0. 前言
随着 Gemini Robotics On-Device 的发布,我关注到了deepmind在3月份的这篇基础工作,Gemini Robotics On-Device 就是在 2025.6.24 发了技术报告的针对Gemini Robotics做的优化,以便于运行在实机上,而且开源了 SDK,要想使用模型还需申请成为 trusted tester。
SDK
1. 背景和介绍
1.1 背景
现代人工智能(AI)模型在大规模数据集上预训练后取得了惊人的进展,重新定义了信息处理,展现出在文本、图像、音频和视频等多种模态上的高水平能力和良好泛化性。
这为数字领域中各种互动与辅助系统开辟了广阔前景,从多模态聊天机器人到虚拟助手都承载了新希望。然而,要将通用自主 AI 的潜力带入物理世界,就必须从数字环境做出重大转变——物理型 AI agent 需要展现出稳健的人类级“具身推理”能力:即在真实物理世界中必不可少的基础概念和常识。
人类理所当然地拥有诸如感知环境三维结构、理解复杂物体间关系和直觉物理等具身推理能力,而这些正是任何具身 AI 代理的重要基础。
而且,具身 AI agent 不仅要被动地理解空间和物理概念,还必须学会采取能直接影响外部环境的行动,将“看懂”与“做得到”之间的鸿沟填平。
随着机器人硬件的最新进展,我们有望打造能执行高灵巧度任务的具身 AI 代理。基于此,我们发问:需要什么条件,才能赋予最先进的数字 AI 模型具身推理能力,使其能够以通用且灵巧的方式与我们的世界互动?
他们的主张基于这样一个理念:利用前沿视觉-语言模型(VLM),例如 Gemini 2.0,所具备的先进多模态理解和推理能力。这些基础模型所提供的通用理解能力——既能解析视觉输入,又能理解复杂文字指令——为构建具身代理奠定了坚实基础。
这一工作依赖两大基本要素。
- 首先,Gemini 需要获得稳健的具身推理能力,学习理解物理世界中丰富的几何与时空细节;
- 其次,必须将这种具身推理落实到物理世界,让 Gemini 掌握“物理动作语言”,理解接触物理、动力学及真实交互的微妙之处。
最终,以上各要素需融合一体,以实现对现实中机器人的快速、安全且灵巧的控制。
1.2 介绍
本报告介绍了一系列专为机器人设计、并基于 Gemini 2.0 构建的全新 AI 模型家族。
首先使用一个全新的开源通用具身推理基准 ERQA,对基础 Gemini 2.0 与生俱来的具身推理性能和泛化能力进行验证。
然后介绍两款模型:
- 第一款是 Gemini Robotics‑ER,一款核心具备强大具身推理能力的 VLM,它在各种具身推理任务上都有出色的泛化,并保留了基础模型的核心功能。
Gemini Robotics‑ER 在理解物理世界的多项关键能力上表现优异,包括从 3D 感知、精细指向,到通过代码进行机器人状态估计与可操作性(affordance)预测。 - 第二款是 Gemini Robotics,一款最先进的 VLA 模型,将强大的具身推理先验与现实中机器人的灵巧低级控制相结合,以解决棘手的操作任务。
Gemini Robotics 可以执行流畅且具响应性的动作,以应对各种复杂的操作任务;它对物体类型和位置的变化具有鲁棒性,能够在未知环境中工作,并遵循多样的、开放式词汇指令。
为凸显 Gemini Robotics 模型的灵活性与通用性,还展示了通过额外的微调,Gemini Robotics 可专门用于新的能力,包括解决长流程、高度灵巧的任务(如折叠一个折纸狐狸或打牌)、仅用少至 100 个示范就能学习新的短流程任务,并可适应全新机器人形态,包括双臂平台和高自由度的人形机器人。
之所以能够实现上述功能,是因为 Gemini Robotics 构建在本工作中介绍的第二款模型——Gemini Robotics-ER(Embodied Reasoning)之上。
Gemini Robotics-ER(具身推理)将 Gemini 的多模态推理能力拓展到物理世界,增强了对空间和时间的理解。这使得模型具备了与机器人相关的能力,包括物体检测、指向、轨迹和抓取预测,以及以多视角对应和三维边界框预测形式呈现的 3D 理解。
也展示了这种新颖组合如何支持多种机器人应用,例如通过生成机器人代码实现零样本(zero‑shot)能力,或通过上下文学习实现少样本(few‑shot)能力。
还讨论并解决了与这类新型机器人基础模型相关的重要安全问题。
具体而言,本报告重点介绍:
- ERQA:一个专门用于评估多模态模型具身推理能力的开源基准,解决了仅评估单项能力而缺乏整体测试的问题,助力标准化评估和后续研究。
- Gemini Robotics‑ER:一款展现了增强具身推理能力的 VLM
- Gemini Robotics:一款融合机器人动作数据的 VLA 模型,实现了高频率的灵巧控制、强健的泛化能力和对多种任务与形态的快速适应。
- 负责任的发展:结合 Google AI 原则,深入研究模型带来的社会收益与风险,并探讨潜在的风险缓解方法。
Gemini Robotics 系列模型是通向更通用型机器人的第一步。作者相信,通过利用互联网规模数据的具身推理能力,并结合真实世界交互的动作数据,能够让机器人深入理解物理世界并胜任操作。这种理解将使它们以通用且高水平的方式完成迄今看来难以企及的最具挑战性任务。
Gemini 2.0 已经展现出与机器人相关的能力,比如语义安全理解和长上下文处理。通过机器人专用训练和可选的专业化过程,Gemini Robotics 系列模型能够展现多种机器人专属能力。
2. 用Gemini 2.0 进行具身推理
Gemini 2.0 是一款视觉-语言模型(VLM),它能超越仅需视觉理解和语言处理的任务。特别地,这个模型展现出了高级的“具身推理”(ER)能力。
具身推理定义为:VLM 能将物体和空间概念“落地”到现实世界,并把这些信息整合用于下游的机器人应用。相关能力示例见图 2。
在 2.1 节先介绍一个基准 ERQA;在 2.2 节演示一下 Gemini 2.0 专业的具身推理能力;在2.3节展示如何将这种能力用于机器人应用(不需要机器人数据上微调)
2.1 Embodied Reasoning Question Answering (ERQA) 基准
为了衡量 VLM 在具身推理上的进展,他们提出了 ERQA(Embodied Reasoning Question Answering)基准,专门针对具身agent 与物理世界交互所需的能力进行测试。
ERQA 包含 400 道多选题,采用视觉问答(VQA)形式,涵盖空间推理、轨迹推理、动作推理、状态估计、指向、多视角推理和任务推理等多种类别。题型分布详见图 4。
在 400 道题中有 28% 的题目提示中包含多于单图——需要在多张图像间关联概念的题目通常比单图题更具挑战性。
ERQA 与现有 VLM 基准互补——后者通常侧重“原子”能力(如物体识别、计数、定位),却很少全面评估在现实世界中“看完就能动手做”所需的更多能力。图 3 展示了 ERQA 的部分示例题目和答案。
有些题目要求模型在多帧图像中识别并对应同一物体;另一些则需要对物体的可操作性(affordances)和与场景其他部分的三维关系进行推理。
基准完整信息详见:https://github.com/embodiedreasoning/ERQA。
他们对 ERQA 中的所有题目进行了人工标注,以确保准确性和高质量。基准中的图像(非题目文字)要么由他们自行拍摄,要么来自以下数据集:OXE、UMI Data、MECCANO、HoloAssist 和 EGTEA Gaze+。
在表 1 中,报告了 Gemini 系列模型和其他模型在 ERQA 以及 RealworldQA、BLINK 两个同样评测空间和图像理解能力的流行基准上的成绩。
具体来说,公布了 Gemini 2.0 Flash(低延迟高效版)和 Gemini 2.0 Pro Experimental(复杂任务最优版)的测试成绩。在各自的模型类别中,Gemini 2.0 Flash 与 Pro Experimental 在这三项基准上均达到了新的最先进水平。
ERQA 是这三项基准中最具挑战性的,因此在 ERQA 上的优异表现尤为值得关注。
Gemini 2.0 模型具备高级推理能力——作者发现,如果采用“思路链”(CoT)提示,就能大幅提升其在基准测试中的表现,这种方法鼓励模型先输出推理过程,再选择多选题答案,而不是直接给出答案。
在每道题后附加如下 CoT 提示语:“请逐步推理并展示每一步工作,然后再给出最终答案。结果见表 2。使用 CoT 提示后,Gemini 2.0 Flash 的表现超过了未用 CoT 的 Pro Experimental,而 Pro Experimental 本身也因 CoT 得到进一步提升。
那这样效果是更好了,但是最终输出动作不是更慢了吗?思路往往比一个动作指令要长得多,可能是几十到上百个 token,导致解码时间线性增长。
但是,通过「只在必要时思考」「并行流水线」「知识蒸馏」等技术,可以把慢的部分“藏”到离线、后台或小模型里,让用户既能看到思路、又不至于让机器人变得反应迟钝。
在图 5 中展示了两道此类推理示例:Pro Experimental 在未用 CoT 时答错,但加了 CoT 后答对。
这些推理示例表明,Gemini 2.0 能 1)精确地将空间理解“落地”于图像观测;2)利用这种落地信息执行复杂的、逐步的具身推理。
2.2 Gemini 2.0 的具身推理能力
在本节中,将更详细地展示 Gemini 2.0 的具身推理能力。还介绍了 Gemini Robotics‑ER,它是在 Gemini 2.0 Flash 基础上增强了具身推理能力的版本。这些功能可以直接用于机器人应用,无需任何额外的机器人专属数据或训练。
Gemini 2.0 能理解图像中的多种二维空间概念。
- 物体检测:Gemini 2.0 能在开放场景中执行二维物体检测,给出精准的二维边界框,查询可以是显式的(如直接说“检测杯子”)或隐式的(如类别、属性或用途)。
- point:基于任意自然语言描述,模型可以指向显式实体(如物体及其部件),也可指向隐式概念(如可操作性——在哪里抓、放在哪里)、空白区域和其他空间概念。量化评估见表 3。
- 轨迹预测:Gemini 2.0 能利用其 point 能力生成基于观察的二维运动轨迹。轨迹可以根据对物理运动或交互的描述来生成。
- 抓取预测:这是 Gemini Robotics‑ER 新增功能,将 Gemini 2.0 的 point 能力扩展到预测从上方抓取的姿态。
Gemini 2.0 还具备三维空间推理能力(Chen 等,2024;Hwang 等,2024)。通过“3D 视角”,Gemini 2.0 能更好地理解大小、距离和朝向等概念,并利用这些信息推理场景状态及后续动作。
5. 多视图对应:用多视角(如立体)图像来表示三维信息是一种自然方式。Gemini 2.0 能基于多视角图像理解三维场景,并预测同一场景在多个相机视图下的二维点对应关系。
6. 三维边界框检测:这种三维理解也适用于单张图像——Gemini 2.0 能从单目图像直接预测有实际度量的三维边界框。与二维检测和指点能力类似,Gemini 2.0 能通过开放词汇描述检测三维物体。
虽然可以为上述每项任务各自打造专门的专家模型,但将它们融合到像 Gemini 2.0 这样的基础模型中,可以让模型借助开放世界的自然语言指令执行具身推理任务、响应反馈并维持多轮互动。
特别地,Gemini 2.0 能将场景理解与推理结合起来,解决更复杂的任务,比如生成机器人控制代码(见第 2.3 节)。接下来将对这些能力在 Gemini 2.0(Flash 和 Pro Experimental)上的数量和质量评估进行详细展示,并在适当情况下与其他 VLM 进行对比。
对于部分能力,还展示了在 Gemini Robotics‑ER 上的测试结果。你可以在此处找到如何提示 Gemini 2.0 以调用这些能力的代码和示例。
物体检测
Gemini 2.0 能基于自然语言查询预测二维物体边界框。在图 6 中,展示了机器人可能看到的图像上,Gemini 2.0 Flash 的多组二维检测示例。
Gemini 2.0 用 (𝑦₀, 𝑥₀, 𝑦₁, 𝑥₁) 约定来表示二维边界框。可以提示 Gemini 2.0 检测场景中的所有物体(示例见图 2)。模型也能根据描述检测特定物体——例如图 6 左中的“检测所有厨房用具”。
描述中还可包含空间提示——如中间示例中的“检测图像右侧的螺母”。
最后,还可以按可操作性提示检测物体。在图 6 的右侧示例中,我们让 Gemini 2.0 检测“洒出的液体”以及“可以用来清理它的东西”。Gemini 2.0 能同时检测到洒液区域和毛巾,而无需显式指定“毛巾”。
这些示例展示了将精准定位能力与通用 VLM 结合的优势:Gemini 的开放词汇和开放场景推理带来了专家模型难以企及的语义泛化能力。
2D point
在某些应用场景中,相较于边界框,“点”能够提供更灵活、更精确的图像理解和机器人控制表示。在多种机器人操作场景中展示了 Gemini 2.0 的 point 能力(见图 7)。
模型将点表示为 (𝑦, 𝑥) 二元组,与二维物体检测类似,Gemini 2.0 能指向任何以开放词汇描述的物体。Gemini 2.0 不仅能定位整个物体,还能定位物体部件,例如勺柄(见图 7 左)。此外,Gemini 2.0 能指向空间概念,比如“锅左侧的桌面空白区域”(图 7 左)或“按照已有八个罐头的排列模式放置新罐头的位置”(图 7 中)。
它还能够推断可操作性;例如,当被要求“指向人抓取该物体以提起它的位置”时,模型能正确识别杯柄(见图 7 右)。在表 3 中使用三个基准对 Gemini 2.0 的指点性能进行了量化评估:Paco-LVIS(Ramanathan 等,2023)评测自然图像的部件定位,Pixmo-Point(Deitke 等,2024)评测网络图像的开放词汇指点,Where2place(Yuan 等,2024)评测室内场景的自由空间指点。
有关我们如何将 point 性能与其他模型对比的详细信息,请参见附录 B.2。Gemini 2.0 在 point 任务上显著优于 GPT、Claude 等最先进VLM 模型。
在三项子任务中,Gemini Robotics‑ER 在其中两项上超过了 Molmo(一款专门的 point VLM)。
2D轨迹
Gemini 2.0 能利用其 point 能力预测将多个点连接起来的二维轨迹。虽然 Gemini 2.0 无法执行复杂的运动规划(如避障),但它仍能生成基于观察结果的有用轨迹。在图 8 中展示了一些示例。
在左图和中图中,Gemini 2.0 在第一人称视角视频中,从人手位置插值出一条可行的轨迹,指向它可能要抓取的工具。在右图中,Gemini 2.0 预测了一系列航点,若机器人手爪按此航点行进,就能擦拭托盘上的洒出区域。
Gemini 2.0 的轨迹预测能力展现了对运动和动力学的世界知识,这对机器人技术来说是基础能力。在第 4.2 节中将利用这些初步的轨迹理解能力,更紧密地将动作与视觉和语言能力结合起来。
顶视抓取
Gemini 2.0 的语义 point 能力可自然扩展到顶视抓取姿态,表示为 (𝑦, 𝑥, 𝜃)——坐标加旋转角度。这一能力在 Gemini Robotics‑ER 中得到了进一步增强(见图 9)。
例如,我们可以提示模型预测抓取香蕉的柄部或香蕉中部(见右图)。将在第 2.3 节演示了如何将这些抓取预测直接用于真实机器人的后续控制。
多视图对应
Gemini 还能理解世界的三维结构。一个例子是它能通过多视角图像来理解三维场景。例如,给定一张初始图像并在上面标注若干点,以及另一张同一场景但不同视角的图像,我们可以询问 Gemini 2.0 哪些初始点在第二张图中仍可见,并获取它们的坐标。
从图 10 的示例可见,Gemini 2.0 能在视角差异很大的情况下完成多视图对应。
在上方的图对中,尽管场景其余部分视角大变,模型仍能正确预测红点对应于第一人称视角下人手持的物体。在下方的图对中,模型正确判断橙点在第二张图中已不可见。
在机器人领域,这种多视图理解非常有用——机器人可利用 Gemini 2.0 推理多路图像流(如立体视图、头部和手腕视图),更好地把握观察到的三维空间关系。
3D检测
Gemini 2.0 还可从单张图像预测带度量信息的三维边界框。与其二维检测能力类似,Gemini 2.0 的三维检测也是开放词汇的,如图 11 所示。
在表 4 中,使用 SUN‑RGBD(Song 等,2015)这一流行的三维检测与场景理解数据集,报告了 Gemini 2.0 的三维检测性能,并与基线专家模型(ImVoxelNet、Implicit3D、Total3DUnderstanding)进行了对比。
Gemini 2.0 的三维检测表现可与现有最先进专家模型相媲美,而 Gemini Robotics‑ER 在 SUN‑RGBD 基准上更创佳绩,达到新的最先进水平。而且这些基线模型只能识别固定类别,Gemini 则支持开放词汇查询。
2.3 Gemini 2.0 零样本和少样本机器人控制
Gemini 2.0 的具身推理能力使其能够在从未使用机器人动作数据训练的情况下控制机器人。它可以开箱即用地完成所有必要步骤:感知、状态估计、空间推理、规划和控制。
而以往研究往往需要组合多个模型来实现这些功能(Ahn 等,2022;…),Gemini 2.0 则将所有所需能力集成于一个模型中。
下面我们探讨两种不同方法:通过代码生成实现零样本控制(zero-shot),以及通过上下文学习(few-shot,以下简称“ICL”)实现少样本控制——后者是给模型少量示例即兴练习新行为。
Gemini Robotics‑ER 在这两种设置下对多种任务均取得了良好表现。作者发现,零样本控制性能与更强的具身理解密切相关:经过更全面训练的 Gemini Robotics‑ER 相比 Gemini 2.0,任务完成率提升近 2 倍。
零样本代码生成控制
为了测试 Gemini 2.0 的零样本控制能力,将其固有的代码生成能力与第 2.2 节描述的具身推理能力结合起来。在一台双臂 ALOHA 2 机器人(Team 等,2024;Zhao 等,2025)上进行了实验。
要控制机器人,Gemini 2.0 可调用一个 API,该 API 能将每个夹爪移动到指定姿态、开合夹爪,并返回当前机器人状态读数。该 API 还提供感知相关函数;不调用任何外部模型,Gemini 2.0 自身负责检测物体边界框、物体上的关键点,并生成第 2.2 节中描述的顶视抓取姿态。
在一次实验过程中,Gemini 2.0 首先会收到一个系统提示、一份机器人 API 描述,以及任务说明。随后 Gemini 2.0 会循环接收显示场景当前状态的图像、机器人状态和执行反馈,并输出可在环境中运行以控制机器人的代码。
生成的代码调用 API 来理解场景并移动机器人,执行循环使 Gemini 2.0 在必要时能够反应并重新规划(例如,见图 34)。
API 和单次执行流程概览见图 12。
表 5 给出了在仿真环境中一系列操作任务的测试结果。
这些任务覆盖不同难度和物体类型:从简单抓取(举起香蕉)到长流程、多步、多任务操作(将玩具放入盒中并合上)。完整任务描述见附录 B.3.1。
成功率普遍偏低的任务:
- Bowl on Rack: 机器人必须从桌子上抬起一个碗并将其放在碗架上。
- Fruit Bowl: 机器人必须将 3 种不同的水果(香蕉、李子和柠檬)从桌子上拿起来,然后放入碗中。
Gemini 2.0 Flash 平均成功率为 27%,对于较简单任务,成功率可达 54%。Gemini Robotics‑ER 平均成功率 53%,几乎是 2.0 Flash 的两倍。Gemini Robotics‑ER 的增强具身推理能力显然提升了下游机器人任务的表现。表 6 展示了在真实 ALOHA 2 机器人上的测试结果。
香蕉交接任务的成功率低于仿真,主要因真实环境中的校准误差和其他噪声因素。对于更难且更需灵巧度的任务:Gemini Robotics‑ER 目前还无法完成衣服折叠,主要因为它无法生成足够精确的抓取姿态。
少样本上下文示例控制
前述结果展示了 Gemini Robotics‑ER 如何有效地零样本完成一系列任务。然而,某些灵巧度要求更高的操作任务超出了 Gemini 2.0 目前的零样本能力范围。针对上述情况,演示了通过少量上下文示例对模型进行“训练”,它即可马上模仿这些行为。
与前例不同,这里不让模型生成代码,而是直接让它根据示例生成末端执行器的轨迹位姿。扩展了 Di Palo 和 Johns(2024)提出的方法:将 𝑘 条遥控操作轨迹转为一个物体与末端执行器位姿列表,作为文本token化后加入提示中(见图 13)。
得益于 Gemini Robotics‑ER 的具身推理能力,无需外部模型来提取视觉关键点和物体位姿(如参考文献所做);Gemini Robotics‑ER 自身即可完成。
除了观测数据和动作数据,还在示例中穿插对所做动作的文字描述,以在推理时引导模型进行思考。模型会模仿示例中的语言推理,从而更善于判断“何时用哪只手”、或更精准地预测与物体的交互位置。
使用大型多模态模型的一个优势是,可同时基于观测、动作和语言来调节行为,而三者结合的效果优于任何单一模态。使用该方法(10 次示例)的结果见上表 5 和表 6。
Gemini 2.0 Flash 和 Gemini Robotics‑ER 都能充分利用上下文示例来提升表现。在仿真中,Gemini 2.0 Flash 的成功率提升至 51%;而 Gemini Robotics‑ER 在仿真和真实环境中均达 65%。
与零样本代码生成相比,性能提升主要体现在更灵巧的任务上,如物体交接、折衣服或收纳玩具,此时示例能让模型输出更精确的双手轨迹。
这组实验表明,Gemini 2.0 Flash 及其 ER 增强版本 Gemini Robotics‑ER 可直接用于控制机器人,既可充当感知模块(如物体检测)、规划模块(如轨迹生成),也可通过生成并执行代码来协调机器人动作。研究还显示,具身推理能力的模型表现与后续机器人控制效果高度相关。
同时,实验证明模型还可利用上下文学习的优势,仅凭少量示例就能学习并增强在更灵巧的双手任务(如折衣服)上的表现,通过直接输出末端执行器的轨迹位姿完成操作。
但作为 VLM,模型在机器人控制上仍有固有局限,尤其对更灵巧的任务,因为需要中间步骤将其天生的具身推理能力转化为具体动作。
在下一节中,我们将介绍 Gemini Robotics,这是一款端到端的 VLA,可实现更通用且更灵巧的机器人控制。
3. 用Gemini Robotics生成机器人动作
在本节中,介绍 Gemini Robotics——它是在 Gemini 基础上,通过微调专门预测机器人动作的衍生模型。Gemini Robotics 是一款通用型模型,能够在不同环境中完成灵巧操作任务,并支持多种机器人形态。
首先考察了该模型在大规模、多样化数据集(包含带动作标注的机器人数据和其他多模态数据)上训练后的表现。
训练完成后,该模型可开箱即用地完成多种短流程灵巧任务(第 3.2 节),能紧密遵循自然语言指令(第 3.3 节),并继承了 Gemini Robotics‑ER 的泛化能力,对场景外观、物体位置和具体实例的变化具备鲁棒性(第 3.4 节)。
在第 4 节中,将进一步挑战 Gemini Robotics 的极限,并对其进行专化:一是挑战高灵巧度的长流程任务(第 4.1 节),二是应对更极端的泛化场景(第 4.2 节)。还研究了快速适应全新灵巧任务(第 4.3 节),以及适应全新机器人形态、动作和观测方式(第 4.4 节)。
Gemini Robotics 模型的架构、输入和输出概览。
3.1 Gemini Robotics 模型和数据
模型
在像 Gemini Robotics‑ER 这样的大型视觉-语言模型中进行推理通常很慢,而且需要专用硬件。这会在 VLA 模型中带来问题,因为推理可能无法在机器人本地运行,而由此产生的延迟也可能与实时控制要求不符。Gemini Robotics 就是为了解决这些挑战而设计的。
模型接收一个多模态提示:包括一组展示场景当前状态的图像和一段文字指令,输出可供机器人执行的动作块(action chunks)。该模型由两个部分组成:托管在云端的 VLA 骨干(Gemini Robotics backbone),以及运行在机器人计算机上的本地动作解码器(Gemini Robotics decoder)。
Gemini Robotics backbone 是基于 Gemini Robotics‑ER 蒸馏得到的轻量版,其查询到响应的延迟已从数秒优化到不足 160 毫秒。本地的 Gemini Robotics decoder 则用来弥补主干网的延迟。
当主干网和本地解码器协同工作时,从原始观测到低级动作块的端到端延迟约为 250 毫秒。在一个动作块中包含多个动作指令时,系统的有效控制频率约为 50 Hz。
整体系统不仅能产生流畅的动作和灵敏的反应(尽管主干存在网络延迟),还保留了主干的泛化能力。
数据
作者在一支由 ALOHA 2 机器人组成的队列上,历时 12 个月收集了大规模遥操作机器人动作数据集,包含数千小时的真实专家演示。数据集包含数千种多样化任务,涵盖不同操作技能、物体类型、任务难度、流程长度和灵巧度需求的场景。
训练数据还包括非动作类数据,如网页文档、代码、多模态内容(图像、音频、视频),以及具身推理和视觉问答数据。这提升了模型在诸多机器人任务和指令上的理解、推理和泛化能力。
基线对比
将 Gemini Robotics 与两款最先进模型进行对比:
- 第一款是 “𝜋₀ re-implement”,即他们对公开权重的最先进 𝜋₀ VLA 模型的复现版本。他们在自己的多样化训练数据上训练 “𝜋₀ re-implement”,发现其性能优于作者公开的模型检查点,因此将其作为实验中最强的 VLA 基线(详见附录 C.2)。
- 第二款是多任务扩散策略模型(Chi 等,2024)(受 ALOHA Unleashed(Zhao 等,2025)启发,但改为按任务条件生成),该模型已被证明能从多模态示例中有效学习灵巧技能。
两个基线模型都在他们相同的数据混合上训练至收敛。Gemini Robotics 主要在云端运行,并配有本地动作解码器;而两款基线模型则全部在配备 Nvidia RTX 4090 GPU 的本地工站上运行。
云+本地 vs 全本地
评估过程
本节中的所有实证结果均基于严格的真实机器人实验,采用 A/B 测试和统计分析。
现实世界中机器人性能指标(例如成功率和/或进度)可能较为嘈杂,因为在机器人上进行实验会受到环境不断变化和硬件老化的影响。为了应对这些问题,每个评估任务(由指令和初始状态定义)都会进行多次试验。
为减少环境因素(如网络延迟、马达磨损、光照变化等)带来的偏差,并消除操作者偏见,各模型在每次试验中会连续、随机地进行评估(A/B 测试)。这样我们就可以使用成对 t 检验,更稳健地评估相对于基线模型的改进效果。
每次评估都会被标记为成功或失败(失败记 0,完全完成记 1)。此外,还使用一个连续型指标——进度分数(介于 0 到 1 之间),用于反映任务完成的比例。
鉴于部分任务的难度(长流程、高灵巧度以及在极端泛化场景下),报告连续进度指标可以为模型性能对比提供额外、有价值的视角。
3.2 Gemini Robotics 开箱即用
在他们的第一组实验中,展示了 Gemini Robotics 能解决广泛的灵巧任务。评估该模型在短流程灵巧任务上的表现,并与最先进的多任务基线模型进行对比。
在 20 个从第 3.1 节数据集中抽取的任务上,对所有模型进行开箱即用测试——即不做任何任务专属微调或额外提示。选取了多样化场景(部分示例见图 15),覆盖洗衣房(如“折叠裤子”)、厨房(如“叠量杯”)、杂乱的办公桌(如“打开粉色文件夹”)以及其他日常活动(如“打开眼镜盒”)。
这些任务对灵巧度的要求各不相同——从简单的取放(如“从桌子中央取出鞋带”)到需双手协作的可变形物体操作(如“将电线绕在耳机上”)。全部任务列表见附录 C.1.1。
图 16 汇总了 Gemini Robotics 模型与基线模型的表现。
Gemini Robotics 模型开箱即用时,对半数任务表现熟练,成功率超过 80%。
值得注意的是,Gemini Robotics 在可变形物体操作上表现尤为出色(如“折叠粉色布料”“将电线绕在耳机上”),而基线模型对此类任务常常无能为力。
对于更具挑战性的任务(如“打开粉色文件夹”“插入红色积木”“将电线绕在耳机上”),可以发现只有 Gemini Robotics 能取得非零成功率,这说明要实现多任务策略学习,必须将高容量模型架构与覆盖视觉、语言和动作的高质量多样化数据结合起来。
最后,发现某些高难度灵巧任务(如“插入鞋带”)仅凭多任务训练仍然较难掌握;将在第 4.1 节中讨论给 Gemini Robotics 的特化方案,以解决这些及更长流程的挑战性任务。
3.3 Gemini Robotics 能紧密遵循语言指令
第二组实验检验模型遵循自然语言指令的能力。选取了 25 条语言指令,在 5 个多样化评估场景中进行测试,这些场景既有训练时见过的,也有包含未见物品和容器的新场景(详见附录 C.1.2)。
评估重点是必须精确执行的指令(如“将蓝色回形针放在黄色便签的右侧”),而非像“清理桌子”这样开放式抽象的指令。他们展示了执行示例(rollouts),并在图 17 中报告二值成功率。
实验结果表明,良好的可控性(steerability)来源于高质量多样化数据与强大的视觉-语言骨干网的结合。在同训练场景下,Gemini Robotics 和 𝜋₀ re-implement 都优于扩散策略基线,这说明需要强大的语言编码器。
然而,在包含新物体和精确指令的挑战场景中(如“将牙膏放入收纳架下层隔间”),可以发现 Gemini Robotics 比任何基线都更有效(见图 17)。
尽管基于 PaliGemma 的 𝜋₀ re-implement 能正确接近训练时见过的物体,但在解析诸如“顶层黑色容器”“蓝色回形针”等描述性属性时表现不佳,并无法完成含有未见物体和语言描述符的任务。
3.4 Gemini Robotics 将 Gemini 的泛化能力带入物理世界
缺乏稳健的泛化能力是机器人在家庭和工业大规模部署的关键瓶颈。在最后一组实验中,评估 Gemini Robotics 在三个维度变化下的适应能力,这三种变化在先前工作中被认为非常重要。
- 视觉泛化:模型应对不会影响完成任务动作的场景视觉变化保持不变。这些变化可包括背景、光照、干扰物体或纹理的差异。
- 指令泛化:模型应理解自然语言指令中的不变性和等价性。超越第 3.3 节研究的细粒度可控性,模型还应理解同义改写、容忍拼写错误、支持多种语言,以及不同具体程度的指令。
- 动作泛化:模型应能调整已学动作或合成新动作,例如应对训练中未见过的初始条件(如物体摆放位置)或不同物体实例(如形状或材质差异)。
图 18 – 20 展示了任务集中这三种变化类型的示例。有关任务的详细分类,请参见附录 C.1.3。
视觉泛化:
指令泛化:
动作泛化:
图 21 报告了平均进度分数。该指标比二值成功率更连续,能让我们更细致地观察各任务的执行进度,尤其是难度较高的任务(各任务的进度分数定义见附录 C.1.3.3)。
Gemini Robotics 在所有三种变化下均持续优于基线模型,表现更为出色。对于基线模型“全面崩溃”的情景(如使用新语言指令),Gemini Robotics 也能取得不错的成绩。
他们推测这些提升源于更大更强的 VLM 骨干网(包括 Gemini 2.0 中使用的最先进视觉编码器)与多样化训练数据的结合。
4. Gemini Robotics的特化和适应能力
在本节中,将进一步挑战模型的极限,并探讨未来提升其通用能力的潜在方向。
具体而言,我们将:
- 通过进一步特化,测试模型在更加挑战性的长流程灵巧任务上的熟练度;
- 通过语义落地的具身推理,优化其泛化能力;
- 快速适应新任务和新环境的可能性;
- 适应全新机器人形态的能力。
(1) 和 (2) 为未来改进模型提供了关键信息,而 (3) 和 (4) 则是模型实际部署时所期望具备的特性。
4.1 长时序灵巧任务
在第 3.2 节,我们已经展示了 Gemini Robotics 模型能够开箱即用地完成短流程灵巧任务。在这里,展示了通过对模型使用一小批高质量数据进行微调,可以将其特化,从而解决对灵巧度和流程长度要求都更高、难度超过通用模型范畴的长流程挑战性任务。
具体而言,选取了六个任务(见图 22),用来展示专化后模型的多种能力:
- 折一个折纸狐狸头:机器人需要将纸张折成狐狸头形状。该任务包含 4 次精确折叠,每次都要对齐、弯折、捏合和压线,且随着折叠步数增加,纸层厚度也增加。任意微小误差都可能导致无法挽回的折叠失败,因此需要非常精确和可靠的双臂协同。
- 打包午餐盒:机器人需要往午餐袋里装几样东西:首先将一片面包塞入塑料袋的狭缝中、拉链封口,然后将该塑料袋和一条能量棒放入午餐袋。接着,需要将葡萄倒入容器、盖好盖子,并将容器放入午餐袋。最后,机器人要将午餐袋拉链拉上。若干子任务(如塞面包、盖容器盖、封拉链)都要求双臂精确配合和细腻的夹爪动作。
- 拼字游戏:人向机器人展示(或绘制)一个物体的图片后,机器人要识别该物体,并通过移动字母牌,在字板上拼出描述该物体的三字母单词。该任务要求视觉识别,以及“视觉-语言-动作”三者的紧密结合。
- 打纸牌:机器人需要使用自动发牌机抽取三张牌并移至另一只手,然后等待人出牌、出一张手牌,最后收起手。该任务是一个具有挑战性的精细操作,需要机器人交接薄纸牌,并精确从手中挑出一张。
- 往沙拉里加豌豆荚:机器人要用金属夹子从一碗中夹起豌豆荚,放入另一碗。使用夹子需要双手配合:一只手固定夹子,另一只手施力来夹紧或松开豌豆荚。
- 往沙拉里加坚果:机器人要用勺子从竖直的容器里舀坚果到沙拉碗中。舀取动作要求灵巧度较高,以便在较深的容器中舀起坚果,然后将其倒入沙拉碗。
为每个任务整理了 2000 到 5000 个高质量示范数据集,并用每个特化数据集对第 3 节的 Gemini Robotics 检查点进行微调。将这些特化模型与同样用相同数据集微调的基线特化版本(𝜋₀ re‑implement specialist 和 Multi-task diffusion specialist)进行性能对比。
另外,为评估第 3 节多样化训练数据的重要性,还从头训练了一个单任务扩散策略模型,以及一个从零开始的 Gemini Robotics 特化模型,而非使用第 3 节的检查点。
在真实环境中对所有模型进行了大量评估,并在图 23 中报告任务成功率(进度分数结果见附录图 42)。
除拼字游戏仅进行了 12 次试验外,其他所有任务每个模型均进行了 20 次试验。特化后的模型能完成所有这些任务,平均成功率达 79%。最值得一提的是,它在持续超过 2 分钟的长流程午餐盒打包任务中取得了 100% 的成功率。
在拼字游戏中,模型能正确识别并拼写示范集中见过的打印图片上的单词,还能在 6 幅未见的手绘草图中正确拼出 4 个单词。相比之下,基线模型均无法稳定地识别图像并正确拼写单词。
对于那些较简单的灵巧任务,我们发现从头训练的单任务扩散模型具有竞争力,这与最优秀的公开结果一致。多任务扩散和 𝜋₀ re-implement 在相同数据上微调后,也未能达到 Gemini Robotics 的表现,这与图 16 的结果一致。
Gemini Robotics 模型与基线的核心差异在于其基于 Gemini 的骨干更强大,这表明在挑战性任务上成功专化与通用模型的预训练实力高度相关。
此外,当使用这些特化数据集从头训练 Gemini Robotics 特化模型时,发现它无法解决任何一个任务(全部 0% 成功率,未在图 23 中作图),这说明除了高容量模型架构外,从第 3 节多样化机器人动作数据中学到的表征或物理常识,也是模型特化以应对高灵巧度长流程任务的关键要素。
4.2 增强推理和泛化
现在,探讨如何充分利用 Gemini Robotics‑ER 中新增的具身推理能力——如空间与物理理解及世界常识——来指导低级机器人动作,以应对比第 3.4 节更需推理和更强泛化的场景。
尽管已有研究在视觉鲁棒性方面取得稳定进展,但迄今为止, VLA 在保持抽象推理能力并将其用于行为泛化方面仍面临重大挑战。
为此,他们研究了一种微调流程:使用第 3.1 节机器人动作数据集的重新标注版本,将动作预测与新引入的具身推理能力(第 2.2 节中的轨迹理解与生成)紧密结合。扩展了第 3.1 节中的本地动作解码器,使其将这些推理中间结果转化为连续的低级动作。
将该推理增强版与原始 Gemini Robotics(第 3 节)在真实世界中那些训练时未见过的任务上进行对比。值得注意的是,这些挑战场景结合了第 3.4 节研究的分布变化,要求模型同时在指令、视觉和动作多方面泛化。在此介绍评估的高层类别,完整指令和任务描述见附录 D.2。
- 单步推理:此类别任务中,指令通过属性或可操作性等方式间接指定目标物体和/或操作行为。
例如,任务“将右下角的鼠标放入相应的鼠标堆”中,模型必须将右下角的白色玩具鼠标分类到白色鼠标堆中,而非棕色或灰色鼠标堆;这些鼠标及按颜色分类的任务都未出现在训练标签中。 - 语义泛化:此类任务在语义和视觉理解方面,比第 3.4 节的泛化任务更为复杂。如任务“将日本鱼料理放入午餐盒”中,模型需从各种干扰物中判断寿司为目标物,并将其装入便当盒。
- 空间理解:此类任务要求理解相对与绝对空间关系等概念。
在任务“将最小的可乐罐放入午餐盒”中,模型需识别并装入迷你罐,而非干扰用的普通罐。评估中使用的空间概念词(如“最小”)未出现在训练动作标签分布中。
原始 Gemini Robotics 模型与推理增强版本在真实评估中的成功率见图 24。
虽然原始模型表现尚可,但在那些需要一步推理或规划、语义知识和空间理解的分布外场景中,推理增强版的成功率大幅提升。
此外,除了在新场景中能力提升,我们还看到模型可输出类似于 Gemini Robotics‑ER 那样可供人理解的中间推理步骤,从而提高了可解释性,这一点也在多篇前沿工作中被强调。例如,我们在图 25 中展示了模型内部“思路链”中的关键点轨迹可视化。
4.3 快速适应到新任务中
机器人基础模型能利用事先学到的“机器人常识”(如动作和物理交互规律),快速学习新任务。第 4.1 节研究了专化到长流程高灵巧任务,本节则探讨另一端:这个通用模型对短流程新任务能多快适应。
具体来说,从上述长流程任务中选了 8 个子任务(详见附录 D.3.1),并改变用于微调第 3 节模型检查点的数据量。图 26 显示了每个任务随示范次数变化的平均成功率。
在 8 个子任务中,有 7 个任务最多用 100 次示范(相当于 15 分钟到 1 小时示范)就能让成功率超过 70%。值得一提的是,两个任务上 Gemini Robotics 的成功率达到了 100%。
基线模型在简单任务上不落下风:它们对“倒生菜”学习更快;在“铺沙拉酱”和“抽牌”任务中,𝜋₀ re‑implement 的成功率略高。但在更难的任务(如“折纸狐狸第一折”或午餐盒子任务)里,示范少时基线模型表现很差。
这进一步表明,强大的VLM骨干——能高效将多样化动作数据转化为对物理交互的深入理解——对快速学习新任务至关重要。
4.4 适应新硬件形态
在初步实验中,还研究了,基于 ALOHA 2 数据训练的 Gemini Robotics 模型,如何用少量目标平台数据,高效适应并控制新硬件形态。
选取了两种示例:一是带平行夹爪的双臂 Franka 机器人;二是 Apptronik 的 Apollo 全尺寸人形机器人,配备五指灵巧手。图 27 展示了这两种机器人上的典型任务示例。
微调后,可以发现 Gemini Robotics 在这些机器人上的训练内(同分布)任务成功率,与最先进的单任务扩散策略相比相当或略优。例如,针对双臂 Franka 机器人适配后的 Gemini Robotics 模型,在所有测试任务上平均成功率达 63%(任务细节和成功率曲线见附录 D.4)。
还考察了该适配模型对视觉干扰、初始条件扰动和物体形状变化的鲁棒性(详见附录 D.4.2)。如图 28 所示,在这些视觉和动作泛化测试中,Gemini Robotics 远超单任务扩散基线模型。
这表明 Gemini Robotics 模型即便针对新硬件进行了微调,依然能将其鲁棒性和泛化能力迁移到不同形态的机器人上。
5. 安全伦理规范
在开发本报告中介绍的模型时,遵循了 Google AI 原则(Google,2025)以及先前发布的 AI 技术规范(Gemini‑Team 等,2023;Kavukcuoglu 等,2022)。确保 AI 负责任地开发与使用是一个迭代的过程——这对机器人基础模型和文本/图像模型同样适用。
由于我们的模型具备数字与物理相结合的“具身”特性,且最终驱动机器人在现实世界中行动,因此需要额外的安全考量。
根据硬件特性和环境约束,需要将像 Gemini Robotics 这样的 VLA 模型与这些关键安全的低层控制器对接。此外,本报告描述的 AI 驱动机器人系统属于更广泛且不断发展的安全研究范畴,需要随着新安全概念的出现不断更新视角。
因此,对 Gemini 2.0 和 Gemini Robotics‑ER 进行了有监督微调,目标是教会模型何时不应在图像信息之外进行泛化。该训练使模型在偏见性指点查询上的拒绝率提高到 96%,而基线仅为 20%。
除内容安全外,通用机器人的另一重要考量是语义动作安全……这些安全规范难以穷举——例如软玩具不应放在热炉上;对花生过敏者不应被递花生;酒杯应保持直立移动;刀具不应指向人;等等。
与本技术报告同步,他们开发并发布了 ASIMOV 数据集……用于评估和提升语义动作安全。
6. 讨论
提出了 Gemini Robotics‑ER,一款具身 VLM,在空间理解、轨迹预测、多视图对应和精准指点等方面显著领先于现有水平。使用全新开源基准对 Gemini Robotics‑ER 的卓越表现进行了验证。结果表明,他们的训练流程能高效放大 Gemini 2.0 原有的多模态具身推理能力。
训练后的模型为真实机器人应用奠定了坚实基础,可高效实现如感知、规划和生成控制代码等任务的零样本和少样本适应。
还展示了 Gemini Robotics,一款通用型 VLA 模型,它在 Gemini Robotics‑ER 的基础上搭建,填补了被动感知与主动具身交互之间的空白。
作为迄今最灵巧的通用模型,Gemini Robotics 在各种操作任务中表现出色,从复杂的布料操控到关节物体的精准处理皆游刃有余。
推测方法成功的原因在于:
(1)具备增强具身推理的强大视觉-语言模型;
(2)结合海量机器人动作数据与多样非机器人数据的专用训练方案;
(3)为低延迟控制而设计的独特模型架构。
关键在于,Gemini Robotics 能高效执行开放词汇指令,并展现出强大的零样本泛化能力,充分利用了 Gemini Robotics‑ER 的具身推理优势。
最后,展示了可选的微调策略,用于特化和适配,让 Gemini Robotics 能快速应对新任务和新硬件形态,实现极高灵巧度,并在挑战场景中泛化,凸显了我们方法将基础能力快速转化为真实应用的灵活性与实用性。
Gemini 2.0 和 Gemini Robotics‑ER 在具身推理方面取得了重大进展,但其能力仍有提升空间。例如,Gemini 2.0 在长视频中持久跟踪空间关系时可能遇到困难,其数值预测(如坐标点和边界框)在更精细的控制任务中也可能不够精准。
首先,他们计划增强 Gemini Robotics 在复杂场景中同时进行多步推理和精细操作的能力,尤其是面对新情境时。这包括研发将抽象推理与精准执行无缝结合的技术,以获得更稳健、更通用的表现。
其次,打算更多依赖模拟环境来生成视觉多样且富含接触反馈的数据,并研究如何利用这些数据构建更强大的 VLA 模型以无缝迁移到现实世界(Lin 等,2025)。
最后,将扩大多硬件形态实验,目标是减少适配新机器人所需数据,最终实现零样本跨形态迁移,让模型能立即在新平台上泛化技能。