One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation-CSDN博客

本文链接：https://blog.csdn.net/s_m_c/article/details/141940517

发表时间：5 Jun 2024

论文链接：https://readpaper.com/pdf-annotate/note?pdfId=2408639872513958656&noteId=2408640378699078912

作者单位：Rutgers University

Motivation：学习一个通用的policy，可以执行一组不同的操作任务，是机器人技术中一个有前途的新方向。然而，现有技术仅限于学习策略，该策略只能执行训练期间遇到的任务，并且需要大量演示来学习新任务。另一方面，人类通常可以从单个未注释的演示中学习新任务。

如上面的动机图：Kuka 机器人的任务是拿起杯子并将其倒入碗中，使用单个演示来拾取和倾倒不同位置的不同杯子，IMOP的核心是估计和匹配给定任务的不变区域的能力。

解决方法：在这项工作中，我们提出了不变性匹配一次性策略学习 (IMOP) 算法。与直接学习末端执行器姿态的标准实践相比，IMOP首先学习给定任务的状态空间的不变区域，然后通过匹配演示和测试场景之间的不变区域来计算末端执行器的姿态。

特点：

不用微调，直接泛化到新的任务。IMOP can perform one-shot sim-to-real transfer using a single real-robot demonstration.
在这项工作中，我们提出了不变区域的概念。我们没有相机视点不变性，而是训练神经网络来预测位置对给定任务的机器人末端执行器保持不变的区域。与可供性不同，所提出的不变区域不用于表示动作概率，而是将动作从演示转移到测试场景。
IMOP不是直接学习所需的末端执行器的姿态，而是学习每个任务的关键不变区域，并在one-shot demonstration和给定的测试场景中找到不变区域之间的成对对应关系。这个成对的对应用于从点集配准问题的最小二乘解分析计算测试场景中所需的末端执行器的姿态。不变区域被定义为一组 3D 点，其坐标在末端执行器的帧中查看时保持不变，跨越共享相同语义动作的状态。 如何得到不变区域的？我们设计了一个基于图的不变区域匹配网络。不变区域通过从连接演示和测试场景的点云的KNN图中通过neighbor attention定位。
在基础任务上进行训练后，IMOP 在与基础任务有很大不同的新任务上进行评估。每个学习任务都在多个试验中进行评估，每个试验都有不同的对象布局和方向。对于每个新任务，只有一个记录的轨迹作为演示给出。

总而言之，我们的贡献有三个方面：

我们提出了 IMOP，这是一种用于机器人操作的one-shot imitation learning algorithm ，它学习通用策略，不仅在基础任务上成功，而且还使用单个未注释演示推广到新任务。
提出了一种基于对应的操作任务姿态回归方法，该方法通过匹配关键视觉元素来预测机器人的动作，在KNN图上连接演示和测试场景的基于图的不变区域匹配网络。（本质上只有2这一点创新）
我们对IMOP在不同任务集上的性能和泛化能力进行了彻底的实证研究。（有sim有real）

实现方式：

Invariant Region Matching Network：我们首先通过将每个点连接到同一场景中最近的k个点，为每个场景点云构建一个KNN图。接下来，我们在每个支持场景 si 内应用图自注意力，并在相同的支持演示中对连续帧 si 和 s′i 的 KNN 图之间进行交叉注意。We use the point transformer layer as the graph attention operator。

Correspondence-based Pose Regression: 6自由度位姿回归的标准做法是从神经网络中获取动作位姿 T。然而，这种方法不能很好地推广到新任务，如第 IV-B 节所述。相反，我们建议通过使用标准最小二乘算法求解公式 1 中的优化问题来分析计算查询状态 sj 的动作姿势 Tj。

State Routing Network:我们设计了一个状态路由网络(如图4所示)，在给定查询场景sj的情况下，在one-shot演示τ中选择支持帧si。我们首先使用PTv2主干提取查询状态sj和τ中的每个状态的场景级特征。接下来，我们遵循现有工作的惯例，将场景级特征与低维内部机器人状态连接起来，包括关节位置和时间步长。然后，我们对多个状态的特征应用交叉注意。

The three techniques presented above form together theInvariance Matching One-shot Policy Learning (IMOP) algorithm.

实验：We first train and evaluate our algorithm on the standard 18 RLBench tasks, and then measure its one-shot generalization ability on 22 novel tasks from 9 categories。

输入：record128 × 128 RGB-D images from the front, left/right-shoulders, and wrist cameras.

one-shot设定：We choose 22 novel tasks that have different object setups and task goals from the base ones, according to the task categorization of Hiveformer。For each novel task, only a single successful trajectory is provided, as a one-shot demonstration. Each task is evaluated on 25 independent trials, and we report the average success rate.（也是类似元学习的设定）

real: a Kuka LBR iwa robot. We adopt five novel tasks: put toys in bowls, stack blocks, put items in shelves, open bottles, and pour cups.

结论：我们已经证明，可以通过学习估计和匹配演示和测试场景中的关键不变区域来实现one-shot novel task generalization。目标末端执行器的姿态可以通过找到不变区域之间的对应关系来转移。

未来：

所提出的通过匹配关键视觉元素转移动作的想法是通用的，但不变区域的当前定义仍然与刚体变换密切相关。这表明基于更一般的运动描述符(如扭曲或流)扩展不变区域的这一形式的潜力。
除了仅利用单个演示之外，还可以维护来自最相关状态的演示池和转移动作，以提高操作性能并减少具有大变化或需要故障恢复的场景下的错误累积。