“达摩链接”生态系列讲座作为连接达摩院与学术界、产业界的社区活动,通过组织内外部的沙龙、讲座等形式,旨在促进前沿技术的分享交流,推动技术成果的转化、合作与应用落地。
为了让更多开发者、学术研发人员能够深入了解“达摩链接”生态系列讲座的分享内容,我们现将精彩要点整理成文。以下内容为分享人观点/研究数据,仅供参考,不代表本账号观点和研究内容。
背景
动作捕捉技术是将人体动作转换为数字化记录的方法。常见的动作捕捉技术分为光学与惯性两大主流门类,前者利用工作在 850nm 至 900nm 红外波段的高速相机系统,捕捉人体动捕服上的马克点(Marker)计算动作姿态;而后者依靠穿戴于人体关键肢体位置的惯性测量单元(IMU,由陀螺仪、加速度计以及磁力计构成)估算人的动作姿态。
为了获得较好的智能水平,让机器人能够获得在各种环境下自主完成任务的能力,需要大量的数据作为提升智能的「原材料」,需要各类环境下海量数据的支持。通过人类穿戴动作捕捉设备,遥控机器人(本体)完成各类操作的流程,从而采集训练数据,是目前业界主流的数采方式之一。但其对于数据采集的规模和质量也提出了更高需求。例如,面向人形机器人需求的动作捕捉方案,通常需要准确记录人类双手十指的复杂运动,同时需要记录大量边缘场景中的人体动作模式以供机器人学习;通过动作捕捉系统遥控机器人操作时,系统还需要具备足够高的实时性等等。
目前,全球有约 2 万家企业参与动作捕捉技术和产品的研发生产工作。诺亦腾是这一领域的头部企业之一。近年来,诺亦腾同很多来自机器人领域的客户或合作伙伴合作,针对动作捕捉技术在机器人领域的应用积累了丰富的实践经验,并提出了通过动作捕捉技术的大规模应用,为人形机器人/具身智能技术的研发构建数据工厂的设想。
动作捕捉技术在机器人领域的应用
动作捕捉技术在机器人领域的应用主要分为五大类。
第一类是传统的机器人遥操作,用来解决人力不可及场景中的工作需求,例如危险场景取样、有毒物质喷涂等;
第二类是人类与机器人协同,遥控机器人与人类共同完成一些工作;
第三类是使用人类动作对机械臂等设备进行快速示范教学,减少复杂编程需求。
以上三类应用都是人在回路(HITL)的类型,也就是机器人在人类控制或监督下完成各类任务。
第四类应用是数字孪生与高精度测量,需要在大空间内对多种机器人等目标进行实时高精度行为测量;
第五类是数据集训练,即对海量真实行为数据的采集与标注,这类应用极大拓展了动作捕捉产品的需求,传统动捕产品在单个项目中的部署量通常只有个位数字,而大规模数据采集应用中往往需要部署数百、上千套动捕设备。通过大规模动作数据采集,可以为人形机器人的研发提供高质量的动作数据集,使未来的人形机器人可以像人类一样自主做出各种灵活动作,完成多种复杂任务。
面向机器人场景的典型动作捕捉数据采集工作流如下图所示:
在上述工作流中,人体的动作数据通过物理采集系统获取后,再通过数据处理流程转化为带有时间戳的数据序列。这些数据通过本体映射步骤,将真实世界中人体的动作映射到真实或虚拟世界中机器人对象上,使这些机器人对象复现人类的操作。
通过动作捕捉技术获得大规模数据集,从而为人形机器人和具身智能领域的需求提供支撑是当下动作捕捉行业的研究重点。动作捕捉数据集的生产流程可以分为四大象限:
-
基于真实本体的数据集生产是行业中占比最大(超过 90%)的流程,它需要由人类穿戴动作捕捉设备,在真实环境中遥操作真实机器人本体,完成真实任务。过程中采集的视觉信息、动作捕捉信息、运控信息等内容需要对齐时间轴并打包归档、标注清洗后,再用于训练。这类流程采集到的数据质量最高,成本也非常高昂。
-
基于虚拟本体的数据集生产则是由人类穿戴动捕设备,操作仿真环境中的虚拟机器人本体,完成虚拟任务,过程中采集仿真的视觉信息等内容进行训练。这类流程存在较大的仿真到真实本体之间的鸿沟,因此数据质量相对第一类流程较差。
-
直接基于人体的数据集生产目前尚处于科研阶段,其跳过了机器人本体的遥操作,直接由人类佩戴与机器人类似的深度视觉、触觉传感器来完成任务并采集数据。这类流程存在非常巨大的跨本体鸿沟,如何解决这一挑战尚需行业研究。
-
基于合成数据的数据集生产是完全通过合成方法来获取数据的方法,这类流程能否用于工业实践尚待研究和证明,行业中也存在数据集的合成数据应该占多大比例的争论。
此外,当机器人用于生产生活用途时,遭遇的挑战种类繁多、任务边界模糊,对数据的质和量都提出了更高的需求,需要行业内各种类型企业广泛合作来解决挑战。通过研发和生产实践,诺亦腾总结了具身智能领域构建大规模数据集时遭遇的一系列挑战和难点。
构建动作捕捉数据集的工程实践挑战
在工程实践中,构建动作捕捉数据集时会面临数据连续性和鲁棒性的高需求挑战,以及数据采集时的多席位同步运转挑战。这两类挑战给数据集的构建带来了很大难度,提高了构建工作对人力、资金和时间投入的要求。
数据的连续性、鲁棒性需求高于数据精度需求
对于机器人遥操作用途,由于跨本体鸿沟的存在,追求很高的动捕精度意义不大。高精度动捕数据经过本体映射后会有数量级损失,往往只需要中等捕捉精度即可,但此类数据集对于连续性、鲁棒性的需求极高。
在传统的光学动作捕捉的应用领域中,如影视特效、动画制作,遮挡问题可以在后期通过数据清理流程解决,且其成本仍然在可控范围之内。是当需求落在具身智能应用领域中,假设是面向泛化抓取任务的 200万条灵巧手操作数据,每条数据时长为10-20秒时,后期的数据清洗将会是一个完全无法承担的成本。遥操作数据必须尽可能地连续,极少中断,遮挡问题必须要解决。
在动作捕捉流程中,惯性捕捉和光学捕捉方法各有优劣。虽然光学动作捕捉设备一直是「室内高精度位姿追踪」的「金标准」,可以达到亚毫米级别的追踪精度,但往往会受物体遮挡而影响数据采集连续性。而机器人数据采集与遥操作异常复杂,遮挡情况严重,横向对比影视特效摄影棚的环境,或者严格可控的实验室环境,环境和遮挡挑战更大。
而惯性动作捕捉技术最大的优势在于它的数据永不中断,环境适应性极强,完全不会受到遮挡影响,也无需顾及遥操作时完成何种任务,无需担心数据的鲁棒性受到影响。
此外,光学动作捕捉还存在着「同型刚体」问题:光学动作捕捉技术要获取一个空间物体,需要用不少于三个马克点构成一个「刚体」(Rigid-body),为了追踪不同的目标物,每一个刚体应当为「异型刚体」(heterogeneous rigid-body),否则光学动捕系统就区分不出来哪个刚体代表左手,哪个刚体代表右手。换言之,传统光学捕捉系统,用异构的方式给每个刚体带来了独立「ID」。
在具身智能机器人领域中,场地内可追踪刚体数量总和或将达到上百个之多,刚体尺寸有大小限制(为了便于佩戴,以及舒适度和安全的考虑),还要构型各异——换而言之,「尺寸约束」、「不同构型」、「数量极多」这三个条件构成了事实上的「不可能三角形」悖论(Trilemma)。
因此只有采用同型刚体,才能让光学动捕在具身智能人形机器人数据采集流程中发挥优势得以应用。对此,诺亦腾结合两者优势研发了全球第一个混合捕捉系统 HybridTrack,这是一套诞生于2018年的算法与软硬件系统,将惯性与光学系统的优质特性融合在一起,用光学定位补充惯性末端精度,用惯性传感器的数据源与光学计算进行紧耦合,极大提升了光学系统的抗遮挡能力,并将惯性传感器的ID赋予同型光学刚体,从而保证机器人遥操作数据采集,或者大规模人体动作、超高精度手部动作数据采集流程。
多席位同步运转挑战
在数据处理和输出过程,当场景中存在大量佩戴无线可穿戴传感器的人类捕捉对象时,传感器需要通过无线信道连接同时传输数据,存在无线频段争抢、数据丢失等挑战。为了解决这些问题,需要使用部分有线的捕捉方案(身上捕捉设备之间使用有线连接)等方法。磁干扰是实践场景中的另一大挑战,很多工业场景中存在较强的磁干扰,会影响传感器收集信息的精度与实时性。
为了应对各种挑战,诺亦腾进行了针对性地研发工作,重构出专为具身智能数据采集场景优化的全身有线动作捕捉设备,开发出了更好的抗磁算法,用在线动态误差估计修正了传感器时漂、温漂等一系列问题,还通过全系统能耗优化提升了设备的续航时间——针对性地解决了各种问题。
除此之外,超大规模的数据集也意味着巨大的数据存储和传输压力。单条 10-20 秒数据一般需要 2GB 存储空间,因此 1000 万条数据就需要 20PB 容量,等效 10000 个 2TB 硬盘,仅这些硬盘就重达 6.5 吨。同时,多席位采集数据流程也会遇到运维管理挑战。大量人员的协调、引导、培训、换班等工作都较为困难,意味着管理层面的难题。
而在本体映射环节,人类动作捕捉采集到的信息映射到机器人时,由于人体和机器人的肢体存在诸多不同,或者不同机器人的肢体设计也有差异,因此映射存在很大挑战。人类所做的很多动作直接映射到机器人身上是无法完成的,例如,人类拿起杯子倒水的过程,机器人模仿时就可能倒洒甚至让杯子掉落。基于此,当企业在本体映射环节遭遇挑战,进度缓慢或中断时,诺亦腾可以协助他们快速突破,完成目标。
总结
在当下的具身智能动作捕捉数据采集领域,数据工厂是一个明显的机遇。由于具身智能行业尚处于商业化早期,数据生产能力具有很高的价值。大规模数据生产能力和大规模数据集又是各地乃至国家的平台型基础建设和战略储备。
目前,诺亦腾是有能力建设、运营、管理超大规模数据工厂/训练场/数采中心/遥操作中心的企业,有望建成这一领域中一流水平的数据工厂。但数据工厂的建设也需要很多能力的积累,诺亦腾只具备其中一部分能力,因此希望与合作伙伴广泛联合,在具身智能的数据生产方面为行业开拓新的机遇。
作者介绍
戴若犁博士,北京诺亦腾科技有限公司联合创始人,现任公司CTO职务,中关村技术评审专家,教授级高级工程师。戴博士毕业于中国科学技术大学及香港中文大学,荣获香港中文大学机械工程学院杰出校友、香港中文大学机械与自动化工程学系杰出校友称号。其研究及工作主要集中于动作捕捉、可视化技术、影视特效制作、虚拟现实与增强现实、机器人以及人工智能等领域,对「机器人训练数据获取」方向具有浓厚科研兴趣,在基于动作捕捉技术的机器人遥操作、相关数据集制备、跨构型训练数据映射以及基于仿真环境的合成数据制备等领域具有丰富的经验。