R3M: A Universal Visual Representation for Robot Manipulation-CSDN博客

本文链接：https://blog.csdn.net/s_m_c/article/details/141940535

R3M [25] explores how visual representations obtained by training on diverse human video data using time-contrastive learning and video-language can enable data-efficient learning（实际上就是小样本学习） of downstream robotic manipulation tasks.

发表时间：CoRL 2022

论文链接：https://readpaper.com/pdf-annotate/note?pdfId=4692250363701493761&noteId=2398886211885348608

作者单位：Stanford University, Meta AI

Motivation：我们研究了在不同人类视频数据上预训练的视觉表示如何使下游机器人操作任务的数据高效学习。

解决方法：具体来说，我们使用时间对比学习、视频语言对齐和 L1 惩罚的组合（这三个技术是本文的核心）使用 Ego4D 人类视频数据集（全球超过70个地点，总共包含超过3500小时的数据）预训练视觉表示，以鼓励稀疏和紧凑的表示。生成的表示 R3M 可以当作冻结感知模块用于下游任务的策略学习。

我们假设基于视觉的机器人操作的良好表示由三个组件组成:

首先，它应该包含物理交互所需的信息，因此应该捕获场景的时间动态（即状态如何过渡到其他状态）。
其次，它应该优先于语义相关性，应该专注于与任务相关的特征，如对象及其关系。
最后，它应该紧凑，不包括与上述标准（例如背景）无关的特征。

针对上述a good representation for vision-based robotic manipulation的三点要求，提出以下三个方法：

时间对比学习来学习捕获时间动态的表示.
视频语言对齐以捕获场景的语义相关的特征.
L1 和 L2 惩罚以鼓励稀疏性。

具体来说，我们为机器人操作 (R3M) 预训练可重用的表示，可用作模拟和真实机器人操作任务中下游策略学习的冻结感知模块。

本文方法的特点：

在大量数据中训练，并利用少量数据迁移。
之前的用作学习机器人表征的数据都比较少，本文利用的数集据很大。
相比之下，我们使用不同的人类视频数据和语言注释来学习可重用的visual representations来实现控制（位姿的输出）。
虽然我们的目标是通过从不同数据中学习来实现泛化，但我们的重点是（1）从人类视频数据中学习，因此环境和任务的分布更大，以及（2）预训练视觉表示，而不是策略或模型。
至关重要的是，与所有这些工作不同，这项工作的主要贡献不是提出一种新的表示学习方法，而是研究在不同视频和人机交互语言上训练的表示是否可以更有效地学习机器人操作。

实现方式：Our goal is to use diverse human video data to pre-train a single reusable visual representation for motor control, particularly robotic manipulation, that can enable efficient downstream learning in previously unseen environments and tasks.

输入：each video consists of a sequence of RGB frames [I0, I1, ..., IT ]

Time Contrastive Learning：我们用时间对比学习训练 R3M，鼓励状态在时间上更接近嵌入空间和视频语言对齐，以鼓励嵌入捕获语义相关的特征。给定一批视频，我们训练编码器产生一个表示，这样在时间上更接近的图像之间的距离小于时间或不同视频的图像。（也就是把同一视频的相近时间步的帧当作正类，其他的帧和其他的视频的图像当作负类。）

Video-Language Alignment：同一视频中的帧以及这一视频对应的语言是正样本，其他视频的帧是负样本。

Regularization：存在问题：状态分布偏移是模仿学习被广泛研究的失败的模式，其中行为克隆训练的策略偏离专家状态分布。解决方法：降低状态空间的有效维数(我们用简单的L1和L2惩罚实现)可以帮助缓解这个问题。

R3M Summary & Implementation：联合优化上述三个目标，image encoder是resnet，policy是MLP。

实验：12 simulated robot manipulation tasks（these environments and tasks are never seen during R3M training.）；a Franka Emika Panda arm to learn a range of manipulation tasks in a real（given just 20 demonstrations）。evaluated across 12 tasks, 9 viewpoints, and 3 different simulation environments。

学到了比clip和moco更好的机器人的特征表示。

结论：我们当前的评估仅限于模仿学习，特别是行为克隆，具有少量任务演示。虽然我们希望看到 R3M 对其他机器人学习设置（如强化学习）同样有益，但 RL 的良好预训练表示与用于模仿的良好预训练表示不同的情况。研究 R3M embedding 或语言接地模块是否可以提供有用的奖励信号是未来工作的一个有趣的方向。