中科大融合图像、文本与 3D 点云的具身导航新框架!CoNav:多模态协同推理赋能具身导航

  • 作者:Haihong Hao, Mingfei Han, Changlin Li, Zhihui Li, Xiaojun Chang

  • 单位:中国科学技术大学,MBZUAI,斯坦福大学

  • 论文标题:CoNav: Collaborative Cross-Modal Reasoning for Embodied Navigation

  • 论文链接:https://arxiv.org/pdf/2505.16663

  • 项目主页:https://abdd.top/CoNav/

  • 代码链接:https://github.com/oceanhao/CoNav

主要贡献

  • 提出了协作跨模态推理框架CoNav:该框架允许3D-文本模型通过简单地共享文本假设来指导导航智能体,而无需大规模的三模态数据集。这种协作方式能够有效整合视觉线索与空间语义知识,从而在导航过程中解决因模态间冲突信念导致的歧义问题。

  • 验证了跨模态信念对齐是实现有效跨模态推理的高效方式:通过模型级别的融合,使得2D图像和3D点云能够相互补充,减少仅依赖像素级颜色和视觉线索时可能出现的不适当行为,从而提升导航性能。

  • 在多个基准测试中展现出卓越性能:CoNav不仅在标准的具身导航基准测试(如R2R、CVDN、REVERIE、SOON)上取得了显著的性能提升,还在空间推理基准测试(如ScanQA、SQA3D)中表现出色。此外,在接近导航成功率的情况下,CoNav通常能够生成比其他方法更短的路径(通过SPL指标衡量),这充分展示了融合不同模态数据在具身导航中的潜力和挑战。

研究背景

  • 具身导航任务要求智能体能够根据用户的自然语言指令在3D环境中进行导航,这需要对场景进行全面理解以及精确的空间推理。

  • 以往的方法大多依赖于2D视觉线索,这限制了智能体对空间语义知识的理解能力。

  • 近年来,随着3D大型语言模型(3D-LLMs)的出现,智能体可以通过整合3D线索(如多视图、鸟瞰图、体素、点云等)来理解空间关系。

  • 然而,将3D-LLMs应用于实际任务(如具身导航)仍面临挑战,尤其是如何有效地融合2D图像、3D点云和文本指令。

研究方法

CoNav框架

  • CoNav框架包含一个预训练的图像-文本导航智能体和一个3D-文本模型。3D-文本模型通过共享文本形式的空间语义知识来显式指导图像-文本导航智能体,从而在导航过程中解决歧义问题。

  • 框架的核心是跨模态信念对齐(Cross-Modal Belief Alignment),通过设计通信接口实现3D-文本模型与导航智能体之间的文本假设共享,并在小规模的2D-3D-文本语料库上进行轻量级微调,使导航智能体学会将视觉线索与从3D-文本模型中获得的空间语义知识相结合,从而实现有效的推理。

预训练

  • 图像-文本导航智能体预训练
    • 使用多样化的具身导航图像-文本对进行预训练,优化智能体的策略参数,使其能够根据当前的RGB图像、历史观测和动作以及指令文本生成最优动作。

  • 3D-文本模型预训练
    • 采用渐进式课程学习范式,将预训练分为三个阶段,从简单到复杂逐步提升模型对空间关系的理解能力。

    • 第一阶段使用Cap3D数据集进行简单描述任务,冻结点云编码器和LLM,训练点云投影器;

    • 第二阶段使用3D-FRONT数据集进行复杂场景描述和空间关系问答任务,冻结点云编码器和投影器,训练LLM;

    • 第三阶段使用从R2R和ScanQA数据集中提取的点云和文本对进行3D问答和简要描述任务,冻结LLM,训练点云编码器和投影器。

跨模态信念对齐

  • 在跨模态信念对齐微调阶段,通过通信接口将3D-文本模型生成的文本假设以标准提示格式传递给图像-文本导航智能体,导航智能体结合视觉线索和空间语义知识生成最终动作。

  • 在此过程中,冻结3D-文本模型的所有参数,仅对导航智能体的LLM参数进行轻量级微调,以最小的更新量和三模态数据对齐跨模态信念。

实验

数据集与评估指标

  • 具身导航任务
    • 数据集:使用R2R、CVDN、REVERIE、SOON四个数据集进行评估。

    • 评估指标:包括轨迹长度(TL)、导航误差(NE)、成功率(SR)、路径长度加权成功率(SPL)和目标进度(GP)。

  • 空间推理任务
    • 数据集:使用ScanQA和SQA3D数据集进行评估。

    • 评估指标:使用精确匹配(Exact Match)、METEOR、BLEU和ROUGE-L等指标。

实验结果

  • 具身导航任务
    • CoNav在R2R、CVDN、REVERIE和SOON四个标准具身导航基准测试的验证集和测试集上均取得了最佳性能。例如,在CVDN测试集上,CoNav的SPL指标比NaviLLM提高了约56%(从0.09提升至0.14),表明CoNav能够生成更短的路径。

    • 此外,CoNav在R2R数据集上的表现也优于NavGPT-2(FlanT5-11B),尽管在成功率(SR)上略低,但在路径长度效率(SPL)上更高,说明CoNav在路径规划方面更具优势。

  • 空间推理任务
    • 在ScanQA和SQA3D数据集上,CoNav同样展现出强大的空间推理能力,性能优于其他开源的3D-LLMs,如SceneVerse、LEO和3D-VisTA等。

消融研究

  • 模型级别融合的有效性
    • 通过对比仅依赖点云-文本模型、仅依赖图像-文本模型以及融合所有三种模态的情况,结果表明融合三种模态的CoNav在具身导航任务和空间推理任务上均优于单一模态模型,证明了模型级别融合能够充分利用各模态的优势,并实现隐式的交叉验证,从而提升导航性能。

  • 跨模态信念对齐的有效性
    • 实验表明,仅简单地共享3D-文本模型的文本假设而不进行信念对齐会导致性能下降。而经过跨模态信念对齐微调后的CoNav能够有效整合视觉线索与空间语义知识,解决模态间的冲突信念,从而提升性能。

更多分析

  • 跨模态对齐分析
    • 与使用额外“CEO”模型进行后处理对齐的方法相比,CoNav的训练有素的跨模态信念对齐方法性能更优,且无需精心设计的奖励函数。

  • 特征级融合与模型级融合对比
    • 在相同的三模态小数据集上进行微调后,特征级融合方法的性能不如CoNav的模型级融合方法。这表明在数据有限的情况下,模型级融合更具实用价值。

结论与未来工作

  • 结论
    • CoNav通过引入3D-文本模型的指导,有效解决了具身导航中不同模态数据融合的挑战,通过跨模态信念对齐实现了视觉线索与空间语义知识的整合,从而在导航过程中解决歧义问题。该方法在多个具身导航和空间推理基准测试中均取得了优异的性能,为具身导航任务在实际应用中的发展奠定了坚实的基础。

  • 未来工作
    • 未来的工作可以进一步探索如何更高效地利用有限的三模态数据进行训练,以及如何进一步提升模型在复杂真实世界场景中的导航性能和泛化能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值