点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章提出了DexGrasp Anything,一种具备物理感知能力的扩散生成器,旨在实现通用且鲁棒的机器人灵巧抓取。灵巧手抓取任意物体的能力对通用具身智能机器人的发展至关重要,但因灵巧手自由度高、物体多样性大,生成高质量、可用的抓取姿态是一大挑战。早期基于解析方法的抓取方案搜索空间大、优化复杂,成功率低;数据驱动方法中的回归法生成的抓取姿态多样性有限,基于扩散模型的生成方法虽能提升多样性,但因缺乏物理规则约束,常生成不理想的抓取姿态。
DexGrasp Anything将三个精心设计的物理约束目标融入扩散模型的训练和采样阶段,具体包括确保抓取可行性的表面拉力、保持手部与物体交互空间准确性的外部穿透排斥力,以及维持手部结构几何形状的自穿透排斥力。通过物理感知训练范式和物理引导采样器,这些约束使基于扩散的生成器能为各种物体生成实用且稳健的灵巧抓取姿态。同时,文章还提出使用大语言模型(LLM)增强对象表示提取模块,通过结合几何特征和语义先验,提升模型生成精确且与上下文相关抓取姿态的能力。
为推动通用灵巧抓取研究,文章构建了DexGrasp Anything(DGA)数据集,该数据集规模超过340万个抓取姿态,涵盖15698个不同物体,在规模和多样性上远超现有灵巧抓取数据集。实验结果表明,DexGrasp Anything在五个灵巧抓取数据集上均取得了最优性能,且该数据集显著提高了灵巧抓取生成的质量和多样性。真实世界实验验证了该方法在实际环境中生成稳健且可行抓取姿态的能力,但对于极薄形状物体的抓取效果欠佳,未来可通过增强可供性建模或集成触觉反馈来改进。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness
作者:Yiming Zhong,Tan Yin,Ma Yuexin等
作者机构:ShanghaiTech University
论文链接:https://arxiv.org/pdf/2503.08257v2
2. 摘要
能够抓取任何物体的灵巧手对于通用具身智能机器人的发展至关重要。然而,由于灵巧手的自由度高以及物体的多样性大,以稳健的方式生成高质量、可用的抓取姿势是一项重大挑战。在本文中,我们提出了DexGrasp Anything方法,该方法将物理约束有效集成到基于扩散的生成模型的训练和采样阶段,在几乎所有开放数据集上实现了最先进的性能。此外,我们还提供了一个新的灵巧抓取数据集,其中包含超过340万个不同的抓取姿势,涉及15000多个不同的物体,展示了其在推动通用灵巧抓取方面的潜力。代码和数据集可在https://github.com/4DVLab/DexGrasp-Anything获取。

3. 效果展示
图4:表2中抓取结果的定性可视化。
图5:消融研究的可视化。两行展示了每种抓取的不同视角。
4. 主要贡献
文章中的主要贡献如下:
我们提出了一种用于灵巧抓取姿态生成的物理感知扩散生成器,该生成器在扩散模型的训练和采样阶段有效地整合了三个关键物理约束。
我们的方法在五个灵巧抓取数据集上达到了最先进的性能。
我们提出了一个新的高质量灵巧抓取数据集,这是迄今为止规模最大、最多样化的数据集,显著提高了现有方法的泛化能力。
5. 基本原理是啥?
1. 基于物理感知的通用机器人灵巧抓取方法
本文提出了DexGrasp Anything方法,将物理约束有效集成到基于扩散的生成模型的训练和采样阶段,在几乎所有开放数据集上实现了最先进的性能。具体而言,该方法引入了表面拉力、外部穿透排斥力和自穿透排斥力三个物理约束目标,确保了抓取的可行性、手 - 物体交互的空间准确性以及手结构的几何形状。
2. 构建大规模多样化的灵巧抓取数据集
为了提高基于扩散的生成方法的通用性,作者构建了一个大规模、多样化的灵巧抓取数据集DexGrasp Anything (DGA) 。该数据集整合了多个来源的现有数据,并通过“模型在环”策略进一步扩展,包含超过340万个抓取姿势,涵盖15,698个不同物体,显著提升了现有方法的多样性和泛化能力。
3. 增强物体表示提取
利用强大的大语言模型(LLM)的语义先验来补充传统的物体几何特征,通过点变换器(Point Transformer)编码物体点云,并结合LLM生成的语义特征,通过交叉注意力机制集成到扩散模型中,增强了模型生成精确和上下文相关抓取姿势的能力。
4. 多方面实验验证
对比实验:在多个基准数据集上的定量和定性实验表明,DexGrasp Anything方法在抓取成功率、穿透率和多样性等指标上优于现有方法。
消融实验:验证了每个物理约束、LLM增强以及物理感知训练范式和物理引导采样器在提升系统整体性能中的关键作用。
数据集评估:训练在DGA数据集上的模型显著提高了采样结果的多样性,同时不降低甚至改善了抓取成功率和穿透指标。
真实世界应用:在真实的ShadowHand机器人上的实验证明了该方法在真实环境中生成稳健和可行抓取姿势的能力。

6. 实验结果
文章围绕DexGrasp Anything方法和相关数据集开展了一系列实验,具体结果如下:
1. 方法对比实验
定量结果:在DexGraspNet、UniDexGrasp、MultiDex、RealDex和DexGRAB五个基准测试中,DexGrasp Anything方法在抓取成功率(Suc. 1、Suc. 6)、最大穿透率(Pen.)和多样性(Div.)方面均优于现有方法。例如,在DexGraspNet数据集上,DexGrasp Anything的Suc. 6达到53.6%,Pen.为21.5,Div.为0.22;使用LLM增强后,Suc. 6提升至57.5%,Pen.降至17.8,Div.为0.23。
定性结果:通过可视化对比,DexGrasp Anything方法产生的抓取姿势更准确,这得益于在训练和采样阶段引入的有效物理约束。推荐课程:聊一聊经典三维点云方法,包括:点云拼接、聚类、表面重建、QT+VTK等。
2. 消融实验
物理约束和LLM增强的作用:在DexGraspNet测试集上的实验表明,逐步添加表面拉力(SRF)、外部穿透排斥力(ERF)、自穿透排斥力(SPF)和LLM增强模块,系统性能逐步提升。如仅添加SRF时,Suc. 6从26.6%提升到38.9%;添加所有物理约束后,Suc. 6达到53.6%;再加入LLM增强,Suc. 6进一步提升至57.5%。
物理感知训练和采样的重要性:对比仅使用物理感知训练而不使用物理引导采样的模型,证明了物理引导采样在提高系统性能方面的关键作用。
3. 数据集评估实验
跨数据集训练效果:在DexGraspNet和RealDex数据集上的实验显示,使用DexGrasp Anything数据集进行训练,显著提高了采样结果的多样性,同时不降低甚至提高了抓取成功率和穿透率指标。例如,SceneDiffuser在DexGraspNet上训练时,Suc. 6为26.6%,Div.为0.15;在DGA数据集上训练后,Suc. 6提升至40.7%,Div.提升至0.36。
可视化结果:可视化对比表明,在DGA数据集上训练的模型针对各种目标对象生成的抓取姿势更加多样化,且保持了较高的质量。
4. 真实世界应用实验
将DexGrasp Anything模型部署在真实的ShadowHand机器人上进行实验,结果表明该方法生成的抓取动作对于未见的真实物体合理且稳定,证明了方法的通用性和实用性。
总结来说,DexGrasp Anything实现了:
在多个数据集上抓取成功率、穿透率和多样性等指标优于现有方法。
物理约束和LLM增强显著提升系统性能。
DGA数据集提高采样结果多样性,不降低甚至改善抓取指标。
在真实世界中生成合理且稳定的抓取动作。






7. 总结 & 未来工作
总结
本文介绍了DexGrasp Anything,这是一种物理感知的扩散生成器,旨在实现通用且鲁棒的灵巧抓取姿态生成。主要内容如下:
方法创新:将三种精心设计的物理约束目标(表面拉力、外部穿透排斥力和自穿透排斥力)集成到扩散模型的训练和采样阶段,提出了物理感知训练范式和物理引导采样器,使生成器能够生成实用且鲁棒的灵巧抓取姿态。同时,利用大语言模型(LLM)增强目标物体的表示提取,提高模型生成精确且上下文相关抓取姿态的能力。
数据集构建:构建了迄今为止规模最大、最多样化的灵巧抓取数据集DexGrasp Anything(DGA),包含来自多个现有来源的高质量数据,并通过物理感知扩散生成器进行扩充。该数据集涵盖超过340万个抓取姿态,涉及15,698个不同物体,显著提高了生成结果的多样性,同时保持或提高了抓取成功率和穿透指标。
实验验证:在多个数据集上的实验表明,DexGrasp Anything在抓取成功率、穿透率和多样性等指标上均优于现有方法。消融实验强调了每个物理约束、LLM增强以及物理感知训练范式和物理引导采样器对系统整体性能的关键作用。对DGA数据集的评估显示,在该数据集上训练可以显著改善多种方法的采样结果。真实世界实验验证了该方法在实际环境中生成合理且稳定抓取动作的能力。
未来展望
研究发现,该方法在处理极薄形状的物体(如面具、盘子等)时会产生不理想的抓取姿态,存在明显的穿透问题。未来的研究方向包括增强可供性建模,或在机器人抓取系统中集成触觉反馈,以解决这些挑战。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉硬件
3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!