ICCV 2025 Highlight | 彻底告别相机姿态!帝国理工提出SPFSplat:稀疏视图自监督3D高斯溅射新SOTA

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

作者丨我爱计算机视觉

来源丨我爱计算机视觉

编辑丨极市平台

极市导读

 

帝国理工 SPFSplat 首创完全无 Pose 的自监督 3D 高斯溅射:仅凭 2–3 张无姿态照片,单网络一次前向即同步输出 3D 场景与相机位姿,新视角合成与姿态估计精度全面反超需 Pose 的 SOTA。

本文介绍一篇来自帝国理工学院的最新研究成果,论文标题为《No Pose at All: Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views》。

这项工作提出了一个名为 SPFSplat 的高效框架,专为从稀疏的多视图图像中进行3D高斯溅射(3D Gaussian Splatting)而设计。其最核心的亮点在于,无论是在训练还是推理阶段,完全不需要真实的相机姿态(Pose)信息。该方法在仅使用少量无姿态信息的图像输入下,通过单次前向传播,就能同时预测出场景的3D高斯基元和相机的位姿,实现了高质量的新视图合成和位姿估计,性能超越了现有技术。

  • 论文标题:No Pose at All: Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views

  • 作者:Ranran Huang, Krystian Mikolajczyk

  • 机构:帝国理工学院 (Imperial College London)

  • 论文地址:https://arxiv.org/pdf/2508.01171v1

  • 项目主页:https://ranrhuang.github.io/spfsplat/

  • 代码仓库:https://github.com/matchlab-imperial/hypo3d

  • 录用会议: ICCV 2025

研究背景与意义

近年来,以神经辐射场(NeRF)和3D高斯溅射(3DGS)为代表的技术在三维重建和新视图合成(Novel View Synthesis, NVS)领域取得了巨大成功。然而,这些主流方法(Pose-Required Methods)通常严重依赖于一个前提:输入图像必须带有通过运动恢复结构(Structure-from-Motion, SfM)等方法预先计算好的、精确的相机姿态。在现实世界的稀疏视图场景中(例如,只有几张照片),由于图像之间的重叠度低或纹理信息不足,SfM算法往往难以稳定工作,导致姿态估计失败,从而限制了这些技术的实际应用。

为了摆脱对预计算姿态的依赖,研究界开始探索“无姿态”(Pose-Free)的三维重建方法。其中一类是“有监督无姿态方法”(Supervised Pose-Free Methods),它们在推理时不需要姿态,但在训练阶段仍然需要真实的相机姿态作为监督信号。这使得它们的应用范围局限于那些拥有姿态标注的数据集。

(上图对比了三种训练流程:(a) 传统需要姿态的方法;(b) 训练时需要姿态监督的无姿态方法;(c) 本文提出的完全自监督无姿态方法)

因此,一个更具挑战性也更具实用价值的方向是“自监督无姿态方法”(Self-Supervised Pose-Free Methods),它在训练和推理过程中都完全不需要真实姿态。然而,这类方法面临一个固有难题:场景几何的学习和相机姿态的估计在优化过程中是紧密耦合的。错误的姿态会导致重建质量下降,而糟糕的重建反过来又会干扰姿态的估计,形成一个不稳定的“反馈循环”,甚至导致训练崩溃。

SPFSplat正是为了解决这一核心挑战而提出的。它通过一个统一的框架联合优化场景和姿态,首次实现了在完全无姿态监督的情况下,性能超越需要姿态的SOTA方法

SPFSplat 的核心方法

SPFSplat的设计精妙而高效,其核心思想是构建一个能够同时处理场景重建和姿态估计的统一网络架构。

上图展示了SPFSplat的训练流程。它主要由一个共享的ViT(Vision Transformer)骨干网络和三个专门的预测头组成:

  1. 共享特征提取骨干:网络首先使用一个共享的ViT编码器和多视图ViT解码器来处理输入的无姿态图像。这种设计让网络能够聚合多视图信息,联合学习场景几何和相机姿态的共享特征表示,从而提升几何一致性并稳定训练过程。

  2. 3D高斯预测头:该部分负责从共享特征中预测3D高斯基元的位置(中心点)、旋转、缩放、不透明度和球谐函数(SH)系数。这些基元共同构成了场景的三维表示。

  3. 姿态预测头:这是一个轻量级的MLP网络,它同样基于共享特征,直接回归出每个输入视图相对于一个规范空间(以第一个输入视图为参考)的相机姿态。

为了在没有真实姿态的情况下有效训练网络,SPFSplat巧妙地设计了两个核心损失函数:

  • 图像渲染损失(Image Rendering Loss):在训练中,网络会利用一个目标视图(Target View)的图像。它首先使用姿态预测头估计出该目标视图的相机姿态,然后基于这个估计出的姿态和已重建的3D高斯基元来渲染一张新的图像。最后,通过计算渲染图像与真实目标图像之间的L2和LPIPS感知损失,来同时优化3D高斯基元和姿态预测。

  • 重投影损失(Reprojection Loss):这是稳定训练和保证几何精度的关键。传统的渲染损失本身不足以约束几何,可能导致网络“作弊”(例如,通过移动高斯点来匹配视图,而不是学习正确的几何结构)。重投影损失通过强制一个几何约束来解决这个问题:对于每个输入视图中的一个像素,其对应的3D高斯点的中心,在通过估计出的相机姿态被重新投影回该视图的2D平面时,其位置应该与原始像素位置保持一致。这个损失为网络提供了强大的几何对齐信号,有效避免了训练崩溃。

通过这种方式,SPFSplat将姿态估计和三维重建统一在一个自监督的框架下,实现了端到端的联合优化。

实验结果与分析

研究团队在多个标准数据集(如RE10K、ACID)上对SPFSplat进行了全面评估,并与当前最先进的方法进行了对比。

1. 新视图合成质量

实验结果表明,SPFSplat的性能非常出色。如下表所示,无论是在图像重叠度高、中、低的情况下,SPFSplat在新视图合成质量(以PSNR、SSIM、LPIPS指标衡量)上均显著优于所有基线方法,包括那些需要精确相机姿态的SOTA方法(如pixelSplat, MVSplat)和之前的无姿态方法(如NoPoSplat, SelfSplat)。

(在RE10K数据集上的新视图合成性能对比)
(在ACID数据集上的新视图合成性能对比)

从下面的定性比较图中可以更直观地看到,SPFSplat生成的图像在几何结构(如桥梁)、细节(如游泳池)和纹理较少的区域(如窗户)上都更加清晰和准确,显著减少了其他方法中常见的模糊、重影和伪影。

2. 相对姿态估计精度

在相对姿态估计任务上,SPFSplat同样表现出色,其精度超越了近期依赖几何先验进行训练的方法(如MASt3R)。这证明了其统一框架在联合优化几何与姿态方面的有效性。

(在RE10K和ACID数据集上具有不同阈值的AUC中的姿势估计性能)

3. 几何重建质量

如下图所示,SPFSplat重建的3D高斯点云质量更高,结构更锐利、更准确,而基线方法则可能出现几何扭曲或错误。这得益于其联合优化策略,使得姿态和几何能够相互促进,形成更强的场景理解。

4. 跨数据集泛化能力

为了测试模型的泛化性,研究者将在室内场景数据集RE10K上训练的模型,直接在室外(ACID)和以物体为中心(DTU)的数据集上进行测试。结果显示,SPFSplat表现出强大的零样本泛化能力,性能优于其他SOTA方法。

5. 消融实验

该方法可以自然地扩展到使用更多输入视图。实验证明,随着输入视图数量的增加,新视图合成的质量也持续提升。

论文贡献与价值

SPFSplat的贡献是多方面的:

  1. 首个超越SOTA的自监督无姿态方法:作者称这是第一个在稀疏视图新视图合成任务中,性能全面超越需要姿态和有监督无姿态SOTA方法的自监督框架。

  2. 高效的统一架构:提出了一个高效的、基于共享骨干网络的统一架构,通过单次前向传播即可同时预测3D高斯和相机姿态,兼具高效率和高性能。

  3. 摆脱姿态依赖:彻底消除了对真实相机姿态的依赖,使其能够直接应用于无姿态标注的大规模真实世界数据,极大地扩展了3D高斯溅射技术的应用场景。

  4. 开源贡献:作者开源了代码和训练好的模型,为社区提供了强大的工具,并为后续研究指明了新的方向,例如探索在更大、更多样化的数据集上进行训练以进一步提升性能。

总而言之,SPFSplat通过其创新的自监督学习框架,成功解决了稀疏视图三维重建中长期存在的姿态依赖问题,为在真实世界中便捷、高效地应用3DGS技术铺平了道路。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。


下载3:人工智能0基础学习攻略手册
在「小白学视觉」公众号后台回复:攻略手册,即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值