BumbleBee：从专家到通才，迈向人形机器人的通用全身控制-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/148794402

25年6月来自北大和智在无界公司的论文“From Experts to a Generalist: Toward General Whole-Body Control for Humanoid Robots”。

由于多样化的运动需求和数据冲突，实现人形机器人的通用敏捷全身控制仍然是一项重大挑战。虽然现有框架擅长训练针对单一运动的策略，但由于控制要求的冲突和数据分布的不匹配，它们难以在高度多样化的行为中进行泛化。这项工作提出 BumbleBee (BB)，这是一个专家-通才学习框架，它结合了运动聚类和模拟-到-真实的自适应来克服这些挑战。BB 首先利用基于自动编码器的聚类方法，使用运动特征和运动描述对行为相似的运动进行分组。然后，在每个集群内训练专家策略，并通过迭代增量动作建模使用真实数据进行细化，以弥合模拟-到-真实的差距。最后，将这些专家提炼成一个统一的通才控制器，该控制器可在所有运动类型中保持敏捷性和鲁棒性。

直接训练通用的全身控制策略极具挑战性，这主要归因于不同运动类型之间存在冲突。这些运动的控制目标差异巨大，例如，跳跃需要高扭矩控制，而原地运动则强调平衡性和连续性。为了应对这一挑战，引入一个从专家到通才的框架，从全新的视角来组织运动数据和策略学习，如图所示。并非在异构数据集上训练单一策略，而是首先根据每种运动类型的运动学特征对数据进行划分，从而减少跨任务干扰，实现更有针对性的学习。

请添加图片描述

数据集整理。基于前期工作 [He et al., 2024a]，首先将 AMASS 数据集中 SMPL 格式 [Loper et al., 2015] 的人体运动序列重定位为机器人特定的表征，包括全局平移和关节轴角旋转。鉴于 AMASS 数据集包含爬行和攀爬等多种运动，执行额外的数据清理步骤以确保质量。应用 PHC [Luo et al., 2023] 对数据集 [He et al., 2025] 进行筛选，最终获得 8,179 条高质量轨迹，用于聚类和训练。

自动编码器聚类

利用自监督框架（即自动编码器）生成的中间表征，对整个数据集中的运动数据进行聚类。目标是根据运动类型对数据进行分类，例如，将跳跃运动归入一个聚类，将原地运动归入另一个聚类。

该方法不仅依靠自编码器来重建完整的运动序列，还结合文本标注在语义层面对运动进行对齐。这确保了模式多样但语义相同的运动在潜空间中位置更接近。例如，行走的动作可能呈现线性运动或圆形路径。仅基于运动对齐很难将这些模式联系起来。然而，引入文本语义对齐后，情况可能会有所不同。用于训练的文本信息来自开源的 HumanML3D [Guo et al., 2022] 数据集，该数据集为 AMASS 中的大多数序列提供文本标注和相应的帧范围。

此外，该方法无法重建 SMPL 格式的运动序列。由于 SMPL 主要包含关节角度和根变换，因此它无法表示区分运动类型所必需的运动动力学。为了解决这个问题，首先应用正向运动学将关节旋转和根位置转换为世界坐标系中关节的三维坐标。随后，修剪冗余关节，并引入相对于世界坐标系的足部速度，以增强模型区分跳跃、站立和行走等运动类型的能力。

在编码过程中，采用 Transformer 进行运动编码，借鉴前人的研究 [Petrovich et al., 2023, 2022]。在编码过程中，采用 Transformer 进行运动编码，借鉴前人的研究 [Petrovich et al., 2023, 2022]。运动编码器以运动序列 M_full = {p_t, r_t, r ̇_t, c_t, v^feet_t}^T 作为输入，并输出运动表示 z^m，其中 p_t 表示所有关节的三维位置，r_t 表示三维空间中的根平移，r ̇_t 表示根速度，c_t ∈ {0,1}^F 表示 F 足的二元接触状态，v^feet_t 表示 F 足的三维速度。文本数据 l 首先通过 BERT 模型 [Devlin et al., 2019] 进行序列化，然后通过 Transformer 传递，获得与 z^m 维数相同的潜在表征 z^l。

解码模块使用与运动编码器相同的 Transformer，但输入和输出维度不同。重建过程仅关注关键关节的子集（例如头部、骨盆、手部和脚部），从而使模型能够专注于核心运动特征。具体而言，它从潜表征 z^l 或 z^m 重建与运动输入相同的特征，但会移除一些上述冗余的关节三维位置信息。损失函数定义为：

请添加图片描述

其中，z^l 和 z^m 分别表示文本和运动模态的中间潜在变量。L_huber 表示 Huber 损失函数，M 表示从真实运动序列 M_full 中选择的关键特征。 ˆM^l 和 ˆM^m 分别是从文本和运动模态重构的特征。前两项用于将运动潜空间与语义潜空间对齐，后两项是用于训练自动编码器的重构损失。最后，应用 K-均值算法对由学习的运动编码器生成所有运动数据的潜变量进行聚类。

专家

为了提升动作专业化程度和从模拟-到-真实的迁移，引入专家策略，即动作追踪和增量动作策略，这些策略基于源自自动编码器 (AE) 嵌入的动作集群进行训练。在此所有模型均使用三层多层感知器 (MLP) 实现，并通过强化学习 (RL) 进行训练。

动作追踪训练

首先，基于整个数据集训练一个通用动作追踪策略作为基础模型。需要注意的是，追踪/参考动作的关节角度和选定的关键点位置都包含在策略的观测值中。

所有专家动作追踪策略均基于基础模型，而非从零开始训练。这是因为每个专家策略都希望保留对其他动作集群的一定泛化能力。然后，每个专家策略都会针对特定的动作集群进行微调，使策略能够专注于行为一致的技能集群，例如行走、站立或跳跃。这种微调显著提高运动保真度，并有效解决由多种运动类型引起的训练冲突。

多阶段增量动作训练

为了进一步克服跟踪策略的模拟-到-真实环境的差距，采用增量动作微调框架。通过将增量动作应用于模拟器动态，并在修改后的环境中继续微调跟踪策略，训练过程有效地近似于现实世界中的训练。本文的贡献在于通过为每个运动集群训练专家增量模型（而非依赖于单一的统一模型）来专业化该框架。

更详细地说，每个专家运动跟踪策略都部署在真实机器人上，以收集其在真实环境中对应的运动轨迹。在每个时间步长 t，用 29 自由度 Unitree G1 机器人（23 个自由度主动控制，不包括腕关节）的板载传感器记录以下内容：基准线速度 v^base_t、机器人基准姿态四元数 α^base_t、基准角速度 ω^base_t、关节位置矢量 q_t 和关节速度 q ̇_t。对于每位专家，随机抽样几十个参考动作并重复执行，总共收集一百多条真实世界轨迹。随后，根据为每个专家收集的数据，按照 ASAP [He et al., 2025] 进一步训练专家 delta 动作模型。由于每个动作簇内一致的动态特性，这种针对专家的训练显著提高 delta 动作模型的拟合精度，并能够更有效地校正模拟与真实的差距。与通用的增量动作模型相比，专家模型在运动补偿精度和整体控制性能方面展现出显著优势。

利用学习到的增量动作模型π^∆(s_t, a_t)，重构模拟环境，如下所示：s_t+1 =f^sim(s_t,a_t+π^∆(s_t,a_t))，并在修改后的环境中对预训练的专家运动跟踪策略进行微调。此过程可迭代执行，直至两种专家策略收敛。

通才

在优化专家策略之后，采用知识蒸馏技术整合各专家策略的知识，生成通用的全身控制策略。本文采用 DAgger [Ross et al., 2011] 实现多专家蒸馏。蒸馏损失函数定义为：

请添加图片描述

其中，E_s∼D 表示对训练数据集 D 中状态 s 的期望，KL(·∥·) 表示 Kullback-Leibler 散度，p_expert,k(s) 表示与状态 s 对应的专家策略，p_general 表示通用策略。

然而，三层 MLP 的容量有限，不足以有效地学习多种专家策略的行为。为了解决这个问题，采用一种更具表达力的架构——Transformer，作为最终通用策略模型的骨干。Transformer 能够更好地对跨不同状态的复杂模式进行建模，从而更有效地融合专家知识。

实验设置

模型在 IsaacGym 中训练。由于 IsaacGym 与现实世界存在很大差距，因此 MuJoCo 可以作为评估模型能力的更可靠智体。因此，大部分评估都在 MuJoCo 中进行。用第经过筛选的 AMASS 数据集来评估性能。对于现实世界的测试，进一步加入长距离运动，以评估 BumbleBee (BB) 的泛化和跟踪能力。所有训练和部署均在 Unitree G1 机器人上进行，该机器人有 29 个自由度，其中 23 个自由度（不包括腕关节）受到主动控制。

基线。为了评估方法的有效性，将其与三种最先进的 (SOTA) 方法进行比较：OmniH2O [He et al., 2024a]、Exbody2 [Ji et al., 2024] 和 Hover [He et al., 2024c]。为了公平比较，用官方发布的代码，或在代码不可用时严格遵循官方实现，并将每种方法调整到 Unitree G1 机器人（而不是 H1/H1-2）。此外，用的训练数据集与 BB 使用的数据集保持一致。对于 Hover，在评估过程中使用未掩码的观测值以确保最佳性能。

指标。用三个关键指标评估性能：成功率 (SR)、平均每个关节位置误差 (MPJPE) 和平均每个关键点位置误差 (MPKPE)。SR 反映策略的整体能力。MPJPE 衡量其在跟踪重定向关节角度时的准确度，而 MPKPE 评估其在世界坐标系中跟踪重定向关键点的精度。在所有指标中，SR 最为关键，因为它反映策略的整体可行性和稳定性。其他指标，例如 MPJPE 和 MPKPE，只有当策略能够成功完成任务时才有意义，这表现为较高的 SR。

环境

观察。对于优先的观察，用本体感觉，包括线速度、角速度、关节位置、关节速度和上一个动作；以及任务相关观察，包括全局坐标系下的目标关节位置、目标关键点位置、目标根平移和目标根旋转。对于学生策略，用除线速度之外的所有本体感觉观察。对于任务相关信息，仅保留局部坐标系下的目标关节位置、根平移和根旋转。对于教师策略取 5 个时间步长的观察结果作为输入；对于学生策略，取 10 个时间步长的观察结果作为输入。

对于增量动作策略，用上述教师策略的完整本体感觉以及跟踪策略动作。不使用根位置和关键点位置等全局信息。

动作。用 PD 控制器来控制 G1 的 23 个自由度（总共 29 个自由度）。策略输出是 PD 控制器的目标关节位置。

终止条件。除了失败之外，在训练和测试过程中添加额外的终止条件，即关键点的位置不得超过阈值。训练期间，使用课程学习将阈值从 0.8 降至 0.3。测试期间，步行任务的阈值为 0.8，其他任务的阈值为 0.4。

该策略的推理频率为 50 Hz。底层接口的运行频率为 200 Hz，确保实时控制的流畅性。控制策略与底层接口之间的通信通过轻量级通信和编组 (LCM) 实现。