24年10月清华大学的论文"RDT-1B: A Diffusion Foundation Model for Bimanual Manipulation"。
双手操作在机器人技术中至关重要,但由于协调两个机械臂(导致多模态动作分布)的固有复杂性以及训练数据的稀缺性,开发基础模型极具挑战性。本文提出机器人扩散Transformer(RDT),一种用于双手操作的开创性扩散基础模型。RDT 以扩散模型为基础,有效地表示多模态,以可扩展的Transformer来处理多模态输入的异质性并捕获机器人数据的非线性和高频性。为了解决数据稀缺问题,引入物理上可解释的统一动作空间,它可以统一各种机器人的动作表示,同时保留原始动作的物理意义,促进学习可迁移的物理知识。通过这些设计,在迄今为止最大的多机器人数据集上对 RDT 进行预训练,并将其扩展到 1.2B 参数,这是最大的基于扩散机器人操作基础模型。在自建多任务双手数据集上对 RDT 进行微调,数据集包含超过 6K+ 集,改进其操作能力。在真实机器人上进行的实验表明,RDT 的表现明显优于现有方法。它对未见过的目标和场景,表现出零样本泛化能力,理解并遵循语言指令,仅通过 1∼5 次演示即可学习新技能,并有效处理复杂、灵巧的任务。
双手操作对于机器人完成现实世界的任务至关重要(Edsinger & Kemp,2007)。对于实际应用,有用的操作策略应该能够推广到未见过的场景,例如新的目标和场景。然而,当前的方法要么依赖于特定于任务的原语(Salehian,2017;Rakita,2019;Grannen,2023a),要么仅限于小规模模型、数据和简单任务(Krebs,2021;Franzese,2023;Grannen,2023b;Zhao,2023;Grotz,2024;Liu,2024),因此仅表现出狭窄的泛化能力,无法完成复杂的任务。继自然语言处理 (Achiam,2023;Touvron,2023) 和计算机视觉 (Radford,2021;Kirillov,2023) 取得成功之后,实现可泛化行为的一个有希望方向是通过对大规模数据集进行模仿学习来开发基础模型。
然而,开发双手操作基础模型并非易事。一个主要原因是由于硬件成本高昂,特定双臂机器人的可访问数据非常稀缺 (Sharma,2018;Collaboration,2023),从而破坏了训练基础模型的数据密集型要求。受到最近在单手操作方面的尝试(Brohan,2023;Kim,2024)的启发,先在广泛的多机器人数据集上进行预训练,然后在目标双臂机器人上收集的小数据集上进行微调。这可以帮助将数据大小扩展到三个数量级,并有可能从其他机器人的数据集中学习可迁移的物理知识。然而,仍存在两个关键的技术挑战。首先,可泛化的基础模型需要在表达力和可扩展性方面都具有高能力的架构。双手操作中动作空间维度是单手操作的两倍,从而为可行的动作分布带来了更高的多模态性(Li,2006;Jia,2024)。
因此,模型必须具有足够的表达力才能捕捉动作分布中的多模态性。以前的方法(Zhao,2023;Brohan,2023;Kim,2024)通常无法满足此标准,导致性能不令人满意。此外,该架构需要有效地处理来自不同模态的输入,包括文本、图像和动作。它必须具有可扩展性,才能在大规模机器人数据上稳定地进行训练。其次,数据异质性是由不同机器人的物理结构和动作空间定义的变化引起的,在多机器人数据训练期间会导致负迁移并阻碍策略泛化(Pan & Yang,2009)。现有的方法要么丢弃具有不同动作空间的机器人,要么仅保留结构在整个机器人中保持不变的数据部分,但代价是丢失宝贵的数据(Broha