ResMimic——类似预训练-微调模式的人形行走-操作:先预训练一个通用运动跟踪策略,后针对特定任务做修正(非盲态部署时依赖动捕)

前言

通过之前的文章,可知,无论是我个人还是我司,都更加关注人形的行走-操作,而非单纯的人形运控,故凡是研究让人形机器人搬箱子之类的工作,我个人都会高度关注

  • 说到让人形机器人搬箱子,本博客内解读了不少来自CMU LeCAR实验的这一系列工作:FALCON、SoFTA、HDMI

    这些工作基本都依赖动捕系统 辅助做全局定位、姿态估计,当然也包括本文要介绍的ResMimic
  • 另,为了方便大家对动捕系统有一个更好的理解,我会在此文《对人体建模之SMPL-X和AMASS数据集的详解:包含动捕系统的从零搭建、人体姿态估计WHAM、手势估计HaMeR》中系统性的阐述一下动捕系统(这个东西其实很重要,但很少有paper会阐述如何从零搭建一套完整的用于人形全身行走-操作的动捕系统)

顺带意识到,我写博客快15年了,15年过去

  • 我发现构建影响力的最佳方式始终是,通过自己的所作所为,去帮助、惠及千千万万的人,只要一个行为 无限利他,那这个行为必定被更多的千万人分享
  • 而非哗众取宠,以图一时热闹,因为这种不长久
    这就像很有钱 ≠ 很有影响力,看似广告/营销能一时获得很高的知名度,但留存很低 生命周期不长 ​​​

第一部分 ResMimic:通过残差学习,从通用运动追踪到类人全身行走-操作一体化

1.1 引言与相关工作

1.1.1 引言

如ResMimic原论文所说,与单纯的行走[1][2]或桌面操作[3][4]相比,行走-操作不仅要求更高的精度,还需要丰富的全身接触,以及大规模难以获取的数据

尽管直接模仿人类动作[5]具有吸引力——因为人类能够自然地进行协调的全身控制——但将人类演示动作迁移到人形机器人身上会带来显著的体现差异:人类演示中的接触位置和相对物体姿态往往无法直接转化,导致出现悬空接触或穿透现象,如图2所示

  1. 近期在通用运动跟踪(GMT)策略方面取得的进展
    [6-Twist: Teleoperated whole-body imitation system]
    [7-Gmt: General motion tracking for humanoid whole-body control]


    这些策略基于大规模仅含人类的数据集[8],[9]进行训练,表明仿人机器人能够高保真地复现多样的人类动作。然而,这些策略无法感知被操控的物体
  2. 另一方面,现有的仿人机器人行走-操作方法依赖于高度任务特定的设计,例如分阶段控制器[10]或手工构建的数据管道[11],这限制了其可扩展性和通用性。因此,目前尚未有一个统一、高效且精确的仿人机器人行走-操作框架
  3. 与此同时,基础模型的突破[12]已经展示了在大规模数据上进行预训练后再进行后续训练的强大能力
    在机器人操作领域,诸如π0[13]和LBM[14]等模型表明,这一范式不仅解决了数据稀缺问题,还提升了鲁棒性和泛化能力
    在图形学领域,预训练的潜在空间同样被用于下游的生成与编辑任务[15][16]

    然而,在仿人全身控制领域,如此强大的预训练—微调范式仍然基本未被探索

对此,来自1 Amazon FAR (Frontier AI & Robotics)、2 USC、3 Stanford University、4 UC Berkeley、5 CMU的研究者提出了ResMimic,这是一种用于人形机器人行走与操作的两阶段残差学习框架

在本文中,作者的核心观点是,虽然多样化的人体动作可以通过预训练的GMT策略有效模仿,但以物体为中心的运动操作则需要任务特定的修正

毕竟许多全身动作——如保持平衡、迈步或伸手——在不同任务间是共享的,只有细致的物体交互才需要适应性调整。这促使作者残差学习范式,将“稳定的运动先验”与“轻量级的任务特定调整”相结合

这个其实已经很像大语言模型中的预训练-微调模式了,这也是为何我解读本论文时 会取本文那样的标题(类似预训练-微调模式的人形行走-操作)之原因,^_^

具体而言

  1. 首先,GMT策略在大规模动作捕捉数据上进行训练,以复现多样的人类动作,作为类人全身行为的强大先验
  2. 其次,针对具体任务的残差策略高效地训练以条件化物体参考轨迹,输出用于修正GMT策略的纠正动作,从而实现精确的物体操作
    这种解耦方式减轻了针对每个任务进行奖励工程的需求,提高了数据效率,并带来了一个通用的框架,不仅适用于行走与操作任务,也适用于其他场景

1.1.2 相关工作

首先,对于基于学习的人形机器人控制

  1. 强化学习RL通过与环境的直接交互,实现了对人形机器人实时全身控制的训练。然而,这种训练通常存在数据效率低下的问题,并且需要在任务特定奖励设计上投入大量精力[17-Humanoidbench: Simulated humanoid benchmark for wholebody locomotion and manipulation]

    因此,大多数以往的研究主要集中在行走等运动控制
    [18-Real-world humanoid locomotion with reinforcement learning]
    [19-Humanoid parkour learning]


    而非多样化的全身控制,或者仅限于如
    起身[20-Learning humanoid standing-up control across diverse postures]
    保持平衡[21-Hub: Learning extreme humanoid balance]
    等特定任务
  2. 为了实现更通用的控制,从人类动作中学习成为了一个有前景的方向[5-Deepmimic]
    这些方法通常依赖于运动学重定向,将人类动作映射到人形机器人上,从而解决了巨大的体现差异问题
    这不仅能够实现对单一动作的精确跟踪
    [22-ASAP]
    [23-Beyondmimic]
    [24-Humanoid-X]


    还可用于多样化的通用动作跟踪
    [6-Twist]
    [7-Gmt: General motion tracking for humanoid whole-body control]
    [25-Exbody]
    [26-Omnih2o]

    尽管这些方法展示了全身控制的能力,但在与物理世界交互方面仍然有限

    VideoMimic[27]取得了显著进展,不仅可以跟踪人类动作,还能重建环境,实现诸如坐在椅子上等情境动作
    然而,它依然只与静态环境交互,尚未扩展到动态物体的交互——这对于实现现实世界的实用性来说是至关重要的一步

与这些工作不同,ResMimic的研究重点在于动态的行走操作

其次,对于人形机器人的行走操作

  1. 类人机器人行走与操作(loco-manipulation)依然是一个极具挑战性的学习问题
    近期的研究通过利用远程操作(teleoperation)取得了有希望的成果
    [6-Twist]
    [28-Amo:Adaptive motion optimization for hyper-dexterous humanoid wholebody control]
    [29-Homie]
    [30-Falcon]

    然而,这些方法缺乏对物体的显式感知,并且需要人工操作
  2. 在远程操作的基础上,一些工作通过收集到的数据训练自主的模仿学习策略
    [4-Generalizable humanoid manipulation with 3d diffusion policies,即 iDP3]
    [31-Humanplus]


    尽管如此,这些努力仍然局限于桌面级操作,且全身表达能力有限——这类任务通常可以通过双臂移动机械臂更有效地完成
  3. 与ResMimic工作最相关的是
    [10-Sim-to-real learning for humanoid box loco-manipulation]
    Dao 等人 [10] 提出了一种用于箱体行走与操作的模块化仿真到现实强化学习(RL)流程,将任务分解为不同阶段(如行走、拾取箱体),并为每个阶段设计独立的策略

    [11-Opt2skill: Imitating dynamically-feasible whole-body trajectories for versatile humanoid loco-manipulation]
    Liu 等人 [11] 则引入了一套端到端学习流程,利用由任务特定轨迹优化生成的参考动作。然而,所有这些方法在演示行走与操作时,全身接触(如仅使用手部)和表达能力有限,并且高度依赖任务特定的设计

    相比之下,ResMimic的方法将 GMT 策略作为先验,在统一框架下实现了更具表现力的全身行走与操作

最后,对于机器人中的残差学习

在机器人领域,基于预定义或已学习基础模型的残差学习已被广泛采用

早期的研究通过引入残差策略来优化手工设计的策略或模型预测控制器,从而实现了更精确且富有接触性的操作

  • [32-Residual reinforcement learning for robot control]
  • [33-Residual policy learning]

在此基础上,后续方法将残差学习扩展到以示范初始化的策略[34-Residual reinforcement learning from demonstrations],[35-Teach a robot to fish: Versatile imitation from one minute of demonstrations]

  • 在灵巧手操作中,残差策略被用于适应人手动作,以实现面向任务的控制
    [36-Maniptrans: Efficient dexterous bimanual manipulation transfer via residual learning]
    [37-Dexh2r: Task-oriented dexterous manipulation from human to robots]
  • 值得注意的是,在类人机器人中,ASAP[22] 利用残差学习来补偿仿真与现实之间的动力学不匹配,从而实现了灵活的全身技能

有别于上述方向,ResMimic以预训练的通用运动跟踪(GMT)策略为基础,学习残差策略以实现富有表现力的全身运动-操作能力

1.2 方法:先训练通用运动跟踪策略,再做残差优化

作者将全身运动操控任务表述为一个目标条件强化学习问题,在马尔可夫决策过程(MDP)

\mathcal{M}=\langle\mathcal{S}, \mathcal{A}, \mathcal{T}, \mathcal{R}, \gamma\rangle中,其中S 为状态空间,A 为动作空间,T 为转移动力学,R 为奖励函数,γ 为折扣因子

  • 在时刻t ,状态s_{t} \in \mathcal{S} 包括:
    i) 机器人本体感知s_{t}^{r}
    ii) 物体状态s_{t}^{o}
    iii) 运动目标状态\hat{s}_{t}^{r}
    以及(iv) 物体目标状态\hat{s}_{t}^{o}
    ————
    对此,我简单补充说明下,即为何有上述4个状态呢,其实也不难理解
    毕竟​​​​​​如果是单纯的locomotion,那就只有
    机器人本体感知运动目标状态了,但因为是行走-操作,则必然得加上物体状态、以及对应的目标状态

    友情提醒,上述的这4个状态 下文还会反复出现
  • 动作a_t 指定目标关节角度,通过PD 控制器在机器人上执行
  • 奖励定义为
    r_{t}=\mathcal{R}\left(s_{t}, a_{t}\right)

    而训练目标是最大化期望累积折扣奖励
    \mathbb{E}\left[\sum_{t=1}^{T} \gamma^{t-1} r_{t}\right]

且为了以任务无关的方式将人-物交互数据转化为类人全身运动-操作策略,作者的目标是避免任务特定的奖励设计——设定任务特定的奖励 然可能有利于单个任务,但会限制泛化能力

相反,作者提出了一个两阶段残差学习框架,如下图图3 所示

ResMimic 概述:1)在大规模人体动作数据上训练通用动作跟踪策略,作为基础策略;2通过虚拟力、物体和接触奖励,高效训练任务特定的残差策略,以优化基础策略的输出3)在实际部署时,采用组合策略进行行走与操作控制

  • 阶段I:通用运动跟踪(GMT
    作者首先训练一个通用的人体运动跟踪策略\pi_{\mathrm{GMT}},作为主控控制器
    给定
    机器人本体感知s_{t}^{r}
    即上文提到的i)机器人本体感知s_{t}^{r}

    参考运动\hat{s}^{r}_t即上文提到的iii)运动目标状态\hat{s}_{t}^{r}
    对应策略\pi_{\mathrm{GMT}}输出一个粗略动作
    a_{t}^{\mathrm{gmt}}=\pi_{\mathrm{GMT}}\left(s_{t}^{r}, \hat{s}_{t}^{r}\right)


    并优化以最大化运动跟踪奖励
    \mathbb{E}\left[\sum_{t=1}^{T} \gamma^{t-1} r_{t}^{m}\right]
  • 阶段II:残差精细化
    在预训练的GMT 策略基础上,再针对每个任务训练一个高效且精确的残差策略\pi_{\text {Res }} ,利用机器人和物体的信息对粗略动作进行精细调整:\pi_{\operatorname{Res}}\left(s_{t}^{r}, s_{t}^{o}, \hat{s}_{t}^{r}, \hat{s}_{t}^{o}\right)=\Delta a_{t}^{\mathrm{res}}

    最终动作计算为
    a_{t}=a_{t}^{\mathrm{gmt}}+\Delta a_{t}^{\mathrm{res}}

    残差策略被优化以最大化运动和物体奖励的组合
    \mathbb{E}\left[\sum_{t=1}^{T} \gamma^{t-1}\left(r_{t}^{m}+r_{t}^{o}\right)\right]

以上的两个阶段均采用PPO [38] 进行训练

1.2.1 通用运动跟踪策略

在此阶段,作者的目标是训练一个可在现实世界部署的通用运动追踪策略\pi_{\mathrm{GMT}},该策略仅以人形机器人本体感知s_{t}^{r} 和人类参考动作\hat{s}_{t}^{r}为输入,并输出动作a^{\mathrm{gmt}} ,以使人形机器人模仿参考动作

虽然ResMimic 是一个可以将任何GMT 策略作为基础策略的通用框架,作者也提供一个具体实现作为示例

  • 第一,两阶段训练流程的重要动机之一是将人体动作跟踪与物体交互解耦
    其中,
    通用动作跟踪策略仅依赖于人体动作捕捉数据,从而避免了对昂贵且难以获取的操作数据的需求

    利用多个公开可用的MoCap 数据集,包括AMASS [8] 和OMOMO [9],它们总共包含超过15,000段片段(约42 小时)
    对于不适用于「行走-操作」场景的动作,例如爬楼梯,被过滤掉

    在整理完人体动作数据集后,作者应用基于运动学的动作重定向方法(例如GMR [39-Gmr: General motionretargeting]),将人体动作转移到人形参考动作数据集
    \left\{\hat{S}_{i}^{r}=\left\{\hat{s}_{t}^{r}\right\}_{t=1}^{T}\right\}_{i=1}^{D}

如此文《SMPL-X——对人体建模之SMPL-X和AMASS数据集的详解:包含人形自主搬运之下全身动捕系统的从零搭建(含手眼标定的详解)》的第三部分所说


AMASS数据集并非自己直接采集原始动捕数据,而是作为一个“集大成者”,对多个已有的、基于光学标记的运动捕捉数据集进行了统一整合和再处理,具体而言

  • 其原始数据来自专业动捕系统:其源数据都是在受控的实验室内,通过部署在四周的多台高速红外摄像头追踪粘贴在人体上的反光标记点获得的,这是目前精度最高的动捕技术方案之一 
  • 其致力于解决数据孤岛问题:不同的动捕实验室使用的标记点数量和位置不尽相同(范围在37到91个不等),导致数据格式各异 
    AMASS通过其核心的MoSh++ 技术,将这些异构的稀疏标记点数据,全部拟合到一个共同的、带蒙皮的三维人体网格模型(SMPL)上 

这样,研究者就可以在一个统一的框架下使用这些数据了

  • 第二,训练策略
    为了训练一个可在真实世界部署的通用运动跟踪策略\pi_{\mathrm{GMT}},作者在仿真中采用单阶段强化学习框架,并且不使用特权信息

    \rightarrow  本体感观观测s_{t}^{r} 被定义为
    \left[\theta_{t}, \omega_{t}, q_{t}, \dot{q}_{t}, a_{t}^{\text {hist }}\right]_{t-10: t},其中\theta_{t}为根部朝向\omega_{t}为根部角速度q_{t} \in \mathbb{R}^{29}为关节位置\dot{q}_{t}为关节速度a_{t}^{\text {hist }}为最近的动作历史
    \rightarrow  参考运动输入\hat{s}_{t}^{r} 被定义为
    \left[\hat{p}_{t}, \hat{\theta}_{t}, \hat{q}_{t}\right]_{t-10: t+10},其中\hat{p}_{t}为参考根部平移,\hat{\theta}_{t}为参考根部朝向\hat{q}_{t}为参考关节位置

    为了提升跟踪质量,作者还将未来的参考运动引入输入,使策略能够预判并规划即将到来的目标,从而实现更平滑的跟踪
  • 第三,奖励与领域随机化
    遵循TWIST [6],运动追踪奖励r_{t}^{m}被表述为三个部分的总和:
    i)任务奖励
    ii)惩罚项
    iii)正则化项

    为了促进鲁棒且具有泛化能力的仿真到现实迁移,作者在训练过程中进一步应用领域随机化。更多细节见[6]

1.2.2 残差优化策略

在预训练的\pi_{\mathrm{GMT}}基础上,作者引入了一种残差策略\pi_{\text {Res }},用于对基础策略预测的粗略动作进行优化,从而完成预期任务

  • 首先,对于参考运动
    作者使用MoCap 系统获取参考轨迹,该系统同时记录人体运动(注意,参考运动是来自人体的运动,非机器人)\left\{\hat{h}_{t}\right\}_{t=1}^{T}和物体运动\left\{\hat{o}_{t}\right\}_{t=1}^{T}
    \rightarrow  人体运动通过GMR [39-Gmr: General motion retargeting] 重定向到人形机器人,得到人形机器人的参考轨迹\left\{\hat{s}_{t}^{r}=\right.\left.\operatorname{GMR}\left(\hat{h}_{t}\right)\right\}_{t=1}^{T}
    ——
    这就像上文提到的
    给定
    机器人本体感知s_{t}^{r}即上文提到的i)机器人本体感知s_{t}^{r}

    参考运动\hat{s}^{r}_t即上文提到的iii)运动目标状态\hat{s}_{t}^{r}
    该策略输出一个粗略动作
    a_{t}^{\mathrm{gmt}}=\pi_{\mathrm{GMT}}\left(s_{t}^{r}, \hat{s}_{t}^{r}\right)

    \rightarrow  至于物体运动则直接作为参考\hat{s}_{t}^{o}使用
    这就是上文提到过的
    在时刻t ,状态s_{t} \in \mathcal{S} 包括:
    ii) 物体状态s_{t}^{o}
    以及(iv) 物体目标状态\hat{s}_{t}^{o}


    两者共同构成了训练残差策略所需的完整参考轨迹\left\{\left(\hat{s}_{t}^{r}, \hat{s}_{t}^{o}\right)\right\}_{t=1}^{T}
  • 其次,对于训练策略
    作者采用基于PPO的单阶段强化学习进行残差学习

    残差策略\pi_{\text {Res }}\left\langle s_{t}^{r}, s_{t}^{o}, \hat{s}_{t}^{r}, \hat{s}_{t}^{o}\right\rangle作为输入,并输出一个残差动作\Delta a_{t}^{\mathrm{res}} \in \mathbb{R}^{29}
    这个残差策略中有4个变量,由于其中关于人形的两个变量,在上文已经定义过了
    \rightarrow  本体感观观测s_{t}^{r} 被定义为
    \left[\theta_{t}, \omega_{t}, q_{t}, \dot{q}_{t}, a_{t}^{\text {hist }}\right]_{t-10: t},其中\theta_{t}为根部朝向,\omega_{t}为根部角速度,q_{t} \in \mathbb{R}^{29}为关节位置,\dot{q}_{t}为关节速度,a_{t}^{\text {hist }}为最近的动作历史
    \rightarrow  参考运动输入\hat{s}_{t}^{r} 被定义为
    \left[\hat{p}_{t}, \hat{\theta}_{t}, \hat{q}_{t}\right]_{t-10: t+10},其中\hat{p}_{t}为参考根部平移,\hat{\theta}_{t}为参考根部朝向,\hat{q}_{t}为参考关节位置
    ————

    至于其中物体相关的两个变量,则可以如下定义
    \rightarrow  物体状态表示为
    s_{t}^{o}=\left[p_{t}^{o}, \theta_{t}^{o}, v_{t}^{o}, \omega_{t}^{o}\right]

    \rightarrow  参考物体轨迹表示为
    \hat{s}_{t}^{o}=\left[\hat{p}_{t}^{o}, \hat{\theta}_{t}^{o}, \hat{v}_{t}^{o}, \hat{\omega}_{t}^{o}\right]_{t-10: t+10}

    其中p_{t}^{o} 表示物体根部的平移,\theta_{t}^{o} 表示根部的朝向,v_{t}^{o} 表示根部的速度,\omega_{t}^{o} 表示根部的角速度

首先,对于网络初始化

  • 在训练开始时,类人机器人已经能够较好地模仿参考的人体动作,因此残差策略理想情况下应输出接近于零的数值
  • 为实现这一目标,作者使用Xavier均匀初始化并设置较小的增益因子(即用于缩放初始化权重方差的标量),对PPO策略网络的最后一层进行初始化,以使初始输出接近于零 [40]

其次,对于虚拟物体力课程

虽然两阶段残差框架在具有可靠参考轨迹和轻质物体的简单任务中表现良好,但当参考动作存在噪声或物体较重时,往往会在早期失败

————
失败主要源于:

  1. 运动学重定向带来的穿透问题,在简单模仿参考动作时会导致人形机器人推动或撞倒物体——从而使初始策略选择后退而不是接触物体
  2. 以及在处理大质量物体时出现的不稳定性

为了解决这一问题,受文献[41]的启发,作者引入了一种虚拟物体控制器课程,通过引导物体朝向其参考轨迹,从而稳定训练过程。即在每个时间步,PD控制器会施加虚拟力和力矩

\mathcal{F}_{t}=k_{p}\left(\hat{p}_{t}^{o}-p_{t}^{o}\right)-k_{d} v_{t}^{o}, \quad \mathcal{T}_{t}=k_{p}\left(\hat{\theta}_{t}^{o} \ominus \theta_{t}^{o}\right)-k_{d} \omega_{t}^{o}

其中\mathcal{F}_{t}\mathcal{T}_{t} 分别表示控制力和力矩,\ominus表示旋转差异。控制器增益\left(k_{p}, k_{d}\right)会逐渐衰减,从而在早期训练阶段通过较强的虚拟辅助实现稳定,而在后期训练阶段则促使策略自主接管并完成任务

  • 最后,对于奖励与提前终止
    将运动追踪与物体交互解耦带来了一个额外的优势:作者避免了对运动奖励和物体奖励之间相对权重的精细调整

    相反,作者直接复用来自GMT训练的运动奖励r_{t}^{m}和域随机化,并引入了两个额外的项:
    \rightarrow  物体追踪奖励r_{t}^{o} ,用于鼓励任务完成
    \rightarrow  以及接触追踪奖励r_{t}^{c},它为身体与物体的接触提供了明确的指导,从而提升了实际部署的可行性
  1. 首先,目标追踪奖励
    以往的工作[11],[42] 通常通过模拟物体和参考物体之间的位姿差异来衡量目标追踪,例如
    r_{t}^{o}=\exp \left(-\lambda_{p} \| p_{t}^{o}-\right.\left.\hat{p}_{t}^{o} \|_{2}\right)+w \cdot \exp \left(-\lambda_{\theta}\left\|\theta_{t}^{o} \ominus \hat{\theta}_{t}^{o}\right\|_{2}\right)

    而作者提出了一种奖励变化更加平滑的替代方法:从物体网格表面采样N 个点,并计算当前状态与参考状态之间的点云差异
    r_{t}^{o}=\exp \left(-\lambda_{o} \sum_{i=1}^{N}\left\|\mathbf{P}[i]_{t}-\hat{\mathbf{P}}[i]_{t}\right\|_{2}\right)
    其中,\mathbf{P}_{t} \in \mathbb{R}^{N \times 3}表示采样的三维点
    该方法自然而然地同时考虑了平移和旋转,无需针对特定任务进行权重调整
  2. 其次,接触奖励
    为了在保持效率的同时鼓励在全身操控过程中正确的物理交互,作者将接触位置离散化为有意义的连接部位,例如躯干、臀部和手臂,当然 不包括脚(因为脚主要与地面接触)

    Oracle 接触信息是从参考的人体-物体交互轨迹中获得的:
    \hat{c}_{t}[i]=\mathbf{1}\left(\left\|\hat{d}_{t}[i]\right\|<\sigma_{c}\right)
    其中 i 表示连杆,\mathbf{1}(\cdot)为指示函数,\left\|\hat{d}_{t}[i]\right\|表示连杆i与物体表面之间的距离
    ——————
    接触跟踪奖励因此被定义为
    r_{t}^{c}=\sum_{i} \hat{c}_{t}[i] \cdot \exp \left(-\frac{\lambda}{f_{t}[i]}\right)
    其中,f_{t}[i]是连杆i  处的接触力
  3. 提前终止
    提前终止[5] 通常用于运动跟踪,当身体部位与地面发生非预期接触或与参考轨迹有较大偏离时,会提前结束一个回合,从而防止策略对无效状态赋予过高价值

    对于类人全身行走-操作任务,作者引入了额外的条件:
    (i) 物体网格与参考轨迹的偏差超过阈值
    \left\|\mathbf{P}_{t}-\hat{\mathbf{P}}_{t}\right\|_{2}>\sigma_{o}

    (ii) 任何必要的人体-物体接触连续丢失超过10 帧

1.3 实验

作者通过大规模仿真研究以及在 Unitree G1仿人机器人(29 自由度,高 1.3 米)上的实际部署,评估 ResMimic 的有效性。本评估旨在考察算法效率与部署鲁棒性

具体而言,他们关注以下研究问题:

  1. Q1:通用运动跟踪(GMT)策略在无需针对任务重新训练的情况下,能否完成多样化的运动操控任务?
  2. Q2:与从零开始训练相比,从预训练的GMT策略初始化是否能够提升训练效率和最终性能
  3. Q3:在将GMT策略应用于行走操作任务时,残差学习是否比微调更有效?
  4. Q4:除了仿真之外,ResMimic能否在现实世界中实现具有精确表现力且鲁棒的控制?

1.3.1 实验设置

1.3.2 sim2sim的评估

1.3.3 真实世界评估:支持盲态和非盲态部署(基于动作捕捉的物体状态输入)

如图1所示

作者将ResMimic部署在Unitree G1人形机器人上,并展示了其精确、富有表现力且具有鲁棒性的全身行走与操作能力

ResMimic支持盲态(无物体状态输入)和非盲态部署(基于动作捕捉的物体状态输入)

为简明起见,图1中的所有真实世界结果均为盲态部署

  • 富有表现力的搬运动作:机器人单膝下跪拾起箱子,或将箱子背在背上,突出表现了富有表现力的全身动作
  • 超越操作的人形机器人-物体交互:机器人坐在椅子上,然后在保持平衡和与环境接触的情况下站起来
  • 通过全身接触搬运重载物体:机器人成功搬运了一个4.5 kg 的箱子,而G1 的手腕承重极限约为2.5 kg,这展示了利用全身接触的必要性
  • 对不规则重物的泛化能力:机器人举起并搬运了重为4.5 kg 和5.5 kg 的椅子,展示了对新颖、非箱体几何形状的实例级泛化能力

且作者还对ResMimic 进行了定性比较

结果如图6所示「现实世界中的定性结果,将ResMimic与所有其他基线方法进行比较」,在真实环境中对比所有基线方法

  • 结果表明,虽然基础策略能够表面上模仿人类动作,但缺乏对物体的感知能力——当示范数据存在缺陷时,这一问题更加突出。而从零开始训练和微调方法,由于仿真到真实的差距,完全失败
  • 最后,作者在如图4所示的非盲部署环境下,利用基于MoCap的物体状态输入对ResMimic进行了评估

    在该设置中,机器人展示了以下能力:
    i) 能够从随机初始姿态操控物体
    ii) 能够自主连续完成运动-操作任务
    以及 (iii) 能对外部扰动表现出反应性行为

1.3.4 消融实验

  1. 虚拟物体控制器的作用:虚拟物体控制器通过施加基于课程的虚拟力,稳定了训练初期,并引导物体沿参考轨迹运动

    图7展示了一个定性示例

    \rightarrow  在该任务中,参考运动存在缺陷,包括人形机器人手部与物体之间的穿透。策略最初只关注动作跟踪以接近物体,导致物体被撞倒,从而获得较低的物体奖励,并频繁提前终止。这会迅速使策略陷入局部最优,即机器人选择后退而不是与物体交互
    \rightarrow  相比之下,采用虚拟力课程后,物体在早期学习过程中保持稳定,使策略能够克服运动数据中的缺陷,并最终收敛到精确的操作策略
  2. 接触奖励的作用:接触奖励为利用全身策略提供了明确的指导
    如图8所示——接触奖励消融实验。NCR表示“无接触奖励”,CR表示“有接触奖励”。下方的对应曲线量化了躯干的接触力

    举起箱子有两种可能的方式:
    1)仅依靠手腕和手

    2)如人类所示,同时利用躯干和手臂的接触


    结论是
    \rightarrow  如果没有接触奖励,策略会收敛到方式(1),这种方式虽然可能在IsaacGym中成功,但在迁移时会失败——在 MuJoCo 和真实世界中
    \rightarrow  但引入接触奖励后,仿人机器人转而采用策略(2),即通过躯干和手臂的协调接触
    这种与人类演示一致的策略带来了更好的仿真到仿真以及仿真到现实的迁移效果,从而验证了接触奖励的重要性

// 待更

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

v_JULY_v

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值