点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:SpatialLM: Training Large Language Models for Structured Indoor Modeling
作者:Yongsen Mao, Junhao Zhong, Chuan Fang, Jia Zheng, Rui Tang, Hao Zhu, Ping Tan, Zihan Zhou
机构:Manycore Tech Inc.、Hong Kong University of Science and Technology
原文链接:https://arxiv.org/abs/2506.07491
代码链接:https://manycore-research.github.io/SpatialLM/
1. 导读
SpatialLM是一个大型语言模型,旨在处理3D点云数据并生成结构化的3D场景理解输出。这些输出包括建筑元素,如墙、门、窗和带有语义类别的面向对象框。与以前利用特定任务网络设计的方法不同,我们的模型遵循标准的多模态LLM架构,并直接从开源LLM进行微调。为了训练SpatialLM,我们收集了由12,328个室内场景(54,778个房间)的点云组成的大规模、高质量的合成数据集,并对各种建模和训练决策进行了仔细的研究。在公共基准上,我们的模型在布局估计方面给出了最先进的性能,在3D对象检测方面给出了有竞争力的结果。由此,我们展示了一条可行的路径,用于增强现代LLM在增强现实、嵌入式机器人等应用中的空间理解能力。
2. 效果展示
SPATIALLM的整体流程。在接收点云输入后,它采用标准的“编码器-MLP-LLM”架构进行多模态特征对齐(左图),并生成纯文本形式的结构化场景描述作为输出(中图)。随后,将重构的3D结构叠加在点云上,以便于可视化(右图)。

ScanNet数据集上的定性结果对比:

数据集视觉质量对比。PrcTHOR中的布局与物体放置方式与真实世界的统计数据存在显著差异。HSSD中的场景和我们的数据集完全由人类创建,但HSSD仅包含211个场景。

3. 引言
三维室内环境在我们日常生活中无处不在。人类每天花费大量时间在此类环境中开展各类活动。因此,人工智能领域的长期目标之一是使机器能够像人类一样感知、推理并与三维室内场景交互。本研究聚焦于结构化室内建模任务,旨在从原始传感器输入(即RGBD扫描)中提取结构化的室内场景描述。具体而言,场景描述包含建筑布局(如墙壁、门、窗)和室内环境中的三维物体边界框。这类三维结构信息已被证明对场景编辑、增强现实和机器人导航等众多实际应用具有显著价值。推荐课程:国内首个面向具身智能方向的理论与实战课程。
相较于网格、体素或隐式函数等三维格式,结构化场景描述提供了一种高度紧凑且灵活的场景表示方式。本文的首要贡献在于将结构化描述视为通用编程语言(即Python)的脚本,并提议以文本形式预测该语言。这种设计选择具有以下优势:(i) 具备人类可解释性和可编辑性;(ii) 可轻松扩展以纳入任何新类别,而不影响脚本现有内容;(iii) 允许我们利用预训练大型语言模型的强大内置编码能力。
因此,我们的目标是通过直接微调开源大型语言模型来实现所提方法。尽管现代(多模态)大型语言模型已彻底改变自然语言处理、二维图像理解与生成等领域,但鲜有研究尝试将其应用于三维结构化场景建模。部分原因在于该任务缺乏大规模高质量数据集。作为本文的第二项贡献,我们构建了一个新型合成数据集,包含12,328个独立场景(54,778个房间)的点云数据及其对应的三维结构信息,并首次开展实证研究,探索将点云输入与大型语言模型对齐以实现结构化场景建模的最佳策略。

4. 主要贡献
我们提出了SPATIALLM——一种能够处理点云输入并生成结构化场景描述的大型语言模型。作为第三项贡献,我们展示:通过首先在大规模数据集上进行预训练,再在下游任务的小规模数据上进行微调,我们的模型在公开的布局估计和三维物体检测基准测试中均表现出竞争性性能。此外,我们提供了概念验证级的零样本实验,表明该模型能够处理来自单目视频序列等多样化来源的点云数据。这些结果表明,SPATIALLM有望成为开发未来解决方案的基础平台,特别适用于需要增强空间理解与推理能力的场景(例如具身智能)。

5. 总结 & 限制性 & 未来工作
在本研究中,我们展示了使用LLMs进行结构化室内建模任务的可行性。我们认为,这是朝着构建未来基础模型迈出的有意义一步,这些模型不仅能理解,还能推理、与结构化3D场景进行交互,甚至还能创建这些场景。
SPATIALLM 存在一些局限性。首先,它未能提供一个通用的、最先进的型,用于从任意的点云数据中提取 3D结构。来自不同源(如单目视频、RGBD扫描和激光雷达传感器)的点云之间存在显著差异。如第3节所示,尽管我们的模型在数据集之间表现出了合理的泛化能力,但针对特定数据集的微调仍然需要,以取得最佳性能。进一步扩展数据和模型规模可能是一个有前景的未来方向。其次,本文专注于训练用于结构化室内建模的LLM,而没有考虑这如何影响模型在自然语言处理和推理方面的自然技能。为了解决这一问题,可能需要进行更全面的基准测试。第三,我们当前的方法是通过一组预定义的物体类别来建模室内布局,这限制了LLM利用其开放式的语言能力。未来的研究方向包括扩展我们的工作,以支持开放词汇的物体检测和3D视觉问答(VQA),从而实现对场景的更灵活、更通用的理解。
我们设想 SPATIALLM 将应用于实际应用场景,如布局估计和3D物体检测。例如,人们可以采用我们的代码,并在自己的数据集上微调模型。在方法学方面,我们希望我们的工作能激发未来在 3D 场景理解、推理和创作领域对 MLLM 模型的研究。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉硬件

3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

3D视觉全栈学习课程:www.3dcver.com

3D视觉交流群成立啦

一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~