仅凭视频输入,30秒生成物理正确3D布局!群核科技开源空间理解模型SpatialLM

一、空间理解新范式:SpatialLM为何引发行业震动?

2025年3月,群核科技在英伟达GTC全球大会上开源了空间理解模型SpatialLM,标志着具身智能领域的一次重大突破。该模型仅需一段普通手机拍摄的视频,即可在30秒内生成物理正确的3D场景布局,支持机器人、AR/VR等应用快速理解物理世界的几何关系。

您可以访问 HuggingFace镜像网站-AI快站下载模型:

https://aifasthub.com/manycore-research/SpatialLM-Llama-1B

https://aifasthub.com/manycore-research/SpatialLM-Qwen-0.5B

核心优势:

  • 视频转3D场景:通过RGB视频生成结构化3D布局,支持沙发摆放位置、家具尺寸等细节标注;
  • 高效推理能力:单场景处理速度较传统激光雷达扫描快3倍,显存占用低至2GB;
  • 开放生态兼容:与群核科技SpatialVerse虚拟道场无缝协同,实现“现实→仿真→现实”的训练闭环

二、技术解析:如何让机器“看懂”物理世界?

SpatialLM的核心在于处理三维点云数据,其独特之处在于能够接收包括单目视频、RGBD图像和LiDAR数据在内的多种输入。模型利用MASt3R-SLAM技术从普通RGB视频中重建三维点云,作为空间理解的基础。通过点云编码器,这些数据被转化为紧凑的特征向量,并由LLM生成场景编码,最终输出包含建筑元素(如墙壁、门窗)和物体语义信息的带方向边界框等结构化三维场景理解结果。

SpatialLM的核心架构包含两大模块:

  • 视觉特征提取:采用MASt3R-SLAM算法从视频帧中提取3D点云数据,精准标记物体边缘、深度信息;
  • 结构化代码生成:基于大语言模型(LLM)将点云转换为可编辑的脚本语言,包含三维坐标、物体属性及交互规则。

关键技术突破:

  • 动态点云压缩:通过自适应网格划分技术,将百万级点云压缩为紧凑的语义标记,减少70%计算负载;
  • 物理规则嵌入:模型内置“床头柜需靠墙放置”“餐桌高度80cm”等常识性约束,确保生成的3D布局符合现实逻辑。

三、模型架构与训练:Llama与Qwen双版本

SpatialLM提供两个版本:SpatialLM-Llama-1B和SpatialLM-Qwen-0.5B。模型在训练阶段采用了大规模、照片级真实感的训练数据集,保证了场景布局的物理准确性。其架构包含点云编码器和LLM,能够将RGB视频通过MASt3R-SLAM重建的点云转化为结构化的三维布局 。

SpatialLM-Testset 的基准测试结果:

四、应用场景:具身智能与空间理解

SpatialLM在具身智能领域展现出巨大潜力。例如,它可以将手机视频转化为三维空间布局信息,并与SpatialVerse虚拟训练平台结合,用于机器人的障碍规避和物体抓取训练 。此外,SpatialLM还可应用于自动导航和AR/VR等领域 。

五、总结与展望:开源驱动空间智能发展

SpatialLM作为一款开源空间智能模型,具备处理多源三维数据并生成结构化场景理解结果的能力,在具身智能等领域具有广阔前景]。其开源特性将促进社区的共同发展,加速空间智能技术的创新和应用。

AI快站下载模型

https://aifasthub.com/manycore-research/SpatialLM-Llama-1B

https://aifasthub.com/manycore-research/SpatialLM-Qwen-0.5B

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值