论文复现7:VoxPoser复现

摘要:大型语言模型(LLM)被证明具有大量可行知识,可以以推理和计划的形式提取机器人操纵。尽管取得了进展,但大多数人仍然依靠预定义的运动原语来与环境进行物理互动,这仍然是主要的瓶颈。在这项工作中,我们旨在综合机器人轨迹,即6-DOF最终效应器航路点的密集序列,以鉴于开放设置的指令和开放设置的对象,以进行多种操纵任务。我们首先观察到,在自由形式的语言指导下,LLM在推断负担和约束方面表现出色来实现这一目标。更重要的是,通过利用其代码编写功能,他们可以与视觉模型(VLM)进行交互,以构成3D值图,以将知识融入代理的观察空间中。然后,组成的值地图将在基于模型的计划框架中使用,以零击综合闭环机器人轨迹具有鲁棒性,对动态扰动。我们进一步展示了建议的框架如何通过有效地学习涉及涉及接触互动互动的场景的动态模型来从在线体验中受益。我们在模拟和现实机器人环境中介绍了对所提出方法的大规模研究,展示了执行自由形式自然语言指定的各种日常操纵任务的能力。

github: https://github.com/huangwl18/VoxPoser
项目:https://voxposer.github.io/
VoxPoser从大型语言模型和视觉语言模型中提取可供性和约束条件,以组成 3D 价值图,运动规划器使用这些价值图对日常操作任务的 零样本合成轨迹进行操作。
复现这篇论文的原因是自己有个工作需要增

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值