使用自然语言连接具身智能体与 3D 世界|达摩链接

“达摩链接”生态系列讲座作为连接达摩院与学术界、产业界的社区活动,通过组织内外部的沙龙、讲座等形式,旨在促进前沿技术的分享交流,推动技术成果的转化、合作与应用落地。

为了让更多开发者、学术研发人员能够深入了解“达摩链接”生态系列讲座的分享内容,我们现将精彩要点整理成文。以下内容为分享人观点/研究数据,仅供参考,不代表本账号观点和研究内容。

图片

背景

多模态大语言模型普遍基于二维图片和文本数据来训练,难以理解三维世界。为构建具备三维世界交互能力的 AI Agent,北京通用人工智能研究院与北京大学、清华大学、卡耐基梅隆大学等联合开发了首个精通 3D 任务的具身智能体。

2022 年 Google Robotics 的一项名为 SayCan 的研究展示了机器人听取人类指令后自主规划,清理洒掉的饮料的场景。在这样的场景中,关键挑战在于如何将机器人对三维世界的感知与人类的自然语言指令结合起来,为此需要开发一类 3D 视觉语言模型(3D-VL)来实现实用的具身智能体。该模型需要接受人类的文本、位置等指令,结合摄像头捕获的场景和状态信息,进行感知、定位、推理和规划运算,并输出文本、移动目标、动作等内容。

图片

如何实现更出色的 3D 视觉模型?

3D 视觉模型需要哪些类型的数据集?

3D 视觉模型的第一类任务是视觉定位(Visual Grounding),与 2D VL 类似,需要分析场景图像,并根据指令内容寻找场景中对应的物体等。典型数据集有ScanRefer(ECCV 2020),1.5k 场景和 52k 描述;ReferIt3D(ECCV 2020),1.5k 场景和 242k 描述;

第二类任务是 3D 物体描述(Dense Captioning),根据场景点云图像和输入的物体框选来描述选中的物体。典型数据集有Scan2Cap(CVPR 2021),1.5k 场景和 52k 描述;

第三类任务是 3D 场景问答,根据输入的 3D 场景内容和问题给出合适的回答,典型数据集有ScanQA(CVPR 2022),1.5k 场景 和 27k 问题。

SceneVerse:视觉定位

上述过往工作的典型问题是数据量规模较小,因此李庆团队提出了一项新工作名为 SceneVerse(ECC 2024),旨在扩大数据规模。该数据集主要面向视觉定位任务。

项目地址:https://scene-verse.github.io/

团队收集了多个高质量数据集中的 3D 场景,分三类进行内容标注。第一类是场景描述,将场景表达为 3D Sub-graph 的文本形式,然后使用这些文本作为提示与 ChatGPT 对话,输出场景描述;第二类是物体描述,生成场景的多角度图片,利用 BLIP2 生成描述,再同 ChatGPT 对话输出描述;第三类是对象参考,利用基于模板的参考描述方法获取物体相对状态信息,继续同模型对话输出描述。

通过上述方法,李庆团队构造了该领域第一个百万规模的数据集,以下是同以往数据集的对比,可以看到数据规模的巨大提升:

图片

与以往数据集相比,利用 SceneVerse 训练模型后获得了明显的精度提升,预训练时提升超过 10 个百分点,零样本时超过 20 个百分点。

然而,该数据集虽然在视觉定位方面有着很好的表现,但它的数据中缺乏 Agent 的参与。为了将 3D VL 模型应用于具身智能任务,就需要引入 Agent。

SQA3D:3D 场景问答

对此,团队提出了一项工作名为 SQA3D(Situated Question Answering in 3D Scenes),ICLR 2023。该数据集的用途偏重于 3D 场景问答。

项目地址:https://sqa3d.github.io

该数据集的想法是设想一个 Agent 身处 3D 空间中,它需要生成对自身所处状态的理解并据此进行推理,响应人类的问题和交互。基于这个想法,团队收集了大量数据构建了 SQA3D。

图片

SQA3D 的输入是一段描述和场景的上下文信息,解释 Agent 所处的状态信息, Agent 需要根据该描述回答与状态相关的问题,同时辨别自身所处的位置。因此,团队收集的数据会提供场景的上下文,形式是一段视频或者 BEV 视角的图片等,且都附有自然语言描述。在场景图像中,使用绿色框标注场景中有描述的相关物体,使用红色框标注问题相关的物体,使用绿色箭头指示Agent所处的位置。

以下是该数据集在 ScanQA、ClipBERT 等模型上的初步实验结果:

图片

从结果来看:

  • 为模型提供状态理解描述可以提升输出表现。

  • 场景输入信息使用 3D 点云时的表现要比使用 2D 图像时的表现更好。

  • 虽然 LLM 有很强大的推理能力,但其理解可能受限于 3D 场景的描述准确度。

  • 人类在这类任务中的表现远远超过现有的模型。

上述方法主要涉及单步推理,但这对于具身智能而言可能不够,因为机器人完成复杂的任务往往需要多个步骤,因此需要针对多步骤任务来设计对应的数据集。

SG3D:3D 物体描述

为此,团队提出了另一项名为 SG3D 的工作:Task-oriented Sequential Grounding in 3D Scenes。该数据集实际上是对3D 物体描述类任务的扩展。

项目地址:https://sg-3d.github.io

该工作的想法是,当 Agent 需要完成复杂任务时将任务拆解为多个步骤,这些步骤中需要定位多个物体。为构造对应的数据集,团队使用 GPT-4 来基于 3D 场景图生成常见的任务,并由人类验证:

图片

SG3D 数据集包含了 22,346 个任务,总共 112,236 个步骤,涉及 4,895 个 3D 场景。与以往数据集相比,SG3D 不仅有着更大的规模,而且任务、步骤和物体描述更加多样化,并且 SG3D 更偏重于完成任务的各个步骤,以往数据集多偏重于物体本身的描述。以下是该数据集在不同模型上的实验结果:

图片

  • 在以往的模型上性能表现不佳,模型不经微调时很难将任务拆解为合理的步骤;

  • 模型微调后性能大幅提升,但精度依旧处于较低水平;

  • 3D LLM 模型的表现一直更好;

  • GPT-4 模型即使加入场景对象信息,表现也不佳。

图片

训练更加通用的 3D 视觉模型

为具身智能设计的 3D 视觉模型,过去大都针对特定任务专门设计。例如,以下是一些针对任务设计的 3D-VL 模型:

图片

上述模型存在的问题是模型本身比较复杂,需要针对不同类型的任务单独设计,且训练过程中会引入包括对象描述、注意力等多方面的损失,很难训练出较好的效果,每个任务都要人工介入调整。在具身智能体的开发过程中,这些任务特定的模型显然是开发效率较为低下,所需成本也是比较高的。

3D-VisTA

对此,团队提出的第一个改进想法是引入预训练微调机制,并在 ICCV 2023 发表了 3D-VisTA(Pre-trained Transformer for 3D Vision and Text Alignment),旨在设计一个能够大大减少各类损失的模型。

项目地址:https://3d-vista.github.io/

这是一个更加简单的模型设计,架构比较直观:

图片

该架构有几点优势:

  • 微调时不会引入多余的损失,只会有任务相关的损失;

  • 实现了统一预训练;

  • 很容易微调。

相比过往的模型,该模型在所有类型的任务评测中都取得了最出色的结果:

图片

使用预训练机制也带来了很大的收益,相比无预训练时精度提升了超过 5 个百分点,新模型只需要一半左右(甚至更少)的数据量就能获得相同的效果。

虽然 3D-VisTA 模型大大减少了训练过程的损失,但它还有一个问题是需要对每个任务做微调,训练一个对所有任务通用的模型也就成为下一步待解决的问题。

PQ3D

为了实现一个对各类任务有更佳泛化能力的模型,李庆团队在 ECCV 2024 发表了名为 PQ3D(Unifiying 3D Vision-Language Understanding via Promptable Queries) 的工作。

项目地址:https://pq3d.github.io/

图片

该模型会接受多种类型的场景输入来理解场景信息,对提示解码获取信息,最后输入提示指导的请求学习流程。在流程中,输入的场景和提示信息通过交叉和自我注意力机制输出 token,token 通过三个 head 完成各种类型的任务。

相比之前业内顶尖的各类模型,PQ3D 有着明显的提升,并用单一模型完成了所有类型的任务:

图片

与以往方法相比,PQ3D 可以任意组合素体、点云和图像三种输入,并根据实际情况选择最合适的组合。模型将输入的自然语言提示分成三类,分别是为对象绘制 mask,在场景中定位具体的对象,以及为某个场景对象生成一段描述。基于这三类基础任务的组合,模型就能处理从低级到高级的各种任务类型。模型会根据不同类型的提示(文本提示、位置提示、图像提示)来完成不同的任务。

3D-VisTA 和 PQ3D 模型分别解决了模型训练过程损失过大,以及模型对不同任务泛化能力不足的问题。但具身智能的交互主要通过 LLM 来实现,如何将上述成果与 LLM 结合起来,为具身智能提供一个可以接收多模态输入,输出多种结果,具备极强通用性的 Embodied AI Agent, 成为了下一步的待解决难题。

图片

Embodied Generalist Agent

为此,团队在 ICML 2024 发布了一项新的工作,An Embodied Generalist Agent in 3D World,将上述工作成果结合在了一起。

项目地址:https://embodied-generalist.github.io/

图片

该模型通过系统信息 Tokenizer 生成 token,并使用 2D、3D 编码器获取场景信息,再通过指令 Tokenizer 生成 token,将上述所有信息输入 LLM 完成任务。模型输出也是多样化的,可以是描述、回答、动作。模型能完成的任务丰富多样,可以是场景描述、问答、对话、对象描述,也可以指导具身智能体与人类交互、执行动作、导航、规划任务等。模型训练方法与 LLM 比较接近,其中的 2D、3D 编码器都需要训练,还采用了 Lora 方法微调了一部分参数。

图片

总结

第一部分探讨了针对 3D-VL 的更大规模的数据集,更大规模的数据集对于具身智能很有意义。此外,具身智能还需要针对任务设计的数据集。

第二部分探讨了为 3D-VL 设计的通用、简单的模型,这类模型的重点在于融合多种模态的内容表示形式,灵活选择合适的形式。LLM 的推理和规划能力在模型的预训练等过程中发挥了很大作用,可以帮助模型完成多种多样的任务类型。

作者介绍

李庆博士,北京通用人工智能研究院机器学习实验室负责人,研究员。主要关注在构建能够从多模态数据(图像、视频、三维视觉和文本等)中学习的通用模型和算法,以及如何提升机器学习模型的训练效率、泛化性和可解释性,实现具备多模态感知、复杂推理和任务规划能力的通用智能体。曾在Google Research、Microsoft Azure AI和Amazon Alexa AI实习,专攻于多模态学习。曾获ICMR 2016最佳论文候选奖,ICML 2020研讨会最佳论文奖,UCLA博士论文奖。本期分享主题为《Connecting the 3D World to Natural Language for Embodied Agents》。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值