ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation-CSDN博客

本文链接：https://blog.csdn.net/s_m_c/article/details/144374012

发表时间：CORL 2024 （Best paper）

论文链接：https://readpaper.com/pdf-annotate/note?pdfId=2476642985732261376&noteId=2480092969164874752

作者单位：Stanford University（Li Fei-Fei）

Motivation：将机器人操作任务表示为关联机器人和环境的约束，是编码所需机器人行为的一种有前途的方法。然而，目前尚不清楚如何制定约束，使它们 1) 适用于不同的任务，2) 无需手动标记，以及 3) 由现成的求解器可实时生成机器人动作。

解决方法：具体来说，ReKep 表示为 Python 函数，将环境中的一组 3D 关键点映射到数值成本。我们证明了通过将操作任务表示为一系列关系关键点约束，我们可以使用分层优化过程来解决机器人动作（由 SE(3) 中的末端执行器姿势序列表示），并以实时频率感知-动作循环。

在机器人学中，SE(3) 常用于描述机器人的末端执行器（如机械臂的末端）的运动。末端执行器的姿势序列可以由一系列 SE(3) 变换矩阵表示，这些变换矩阵描述了末端执行器在不同时间点的位置和方向。（即SE3是末端位姿）

我们的贡献总结如下：

1）我们将操作任务制定为具有关系关键点约束的分层优化问题；

2）我们设计了一个管道，使用大型视觉模型和视觉语言模型自动指定关键点和约束；

3）我们在两个真实机器人平台上展示了系统实现，该平台将语言指令和 RGB-D 观察作为输入，并为各种操作任务生成多阶段、野外、双手动和反应行为，所有这些都没有特定于任务的数据或环境模型。

实现方式：结构如下：

输入图像是RGB-D，Dinov2 用于提出场景中细粒度有意义区域的关键点候选对象。将覆盖关键点和指令的图像输入GPT-4o，生成一系列ReKep约束作为python程序，指定任务不同阶段的关键点之间的期望关系(C(i)子目标)，以及对过渡行为的任何要求(Cipath)。最后，约束优化求解器用于在 SE(3) 中获得密集的末端执行器动作序列，受生成的约束。

实验：各种各样真实场景的任务（包括单臂和双臂，包括具有常识知识的野外规范、具有时空依赖性的多阶段任务、与几何意识的双手动协调以及与人类和干扰下的反应性）。

结论：展示了 ReKep 的独特优势，因为它可以由大型视觉模型和视觉语言模型自动合成。