一种适用于动态环境的3DGS-SLAM系统-电子发烧友网

当前基于神经辐射场（NeRF）或3D高斯泼溅（3DGS）的SLAM方法在重建静态3D场景方面表现出色，但在动态环境中的跟踪和重建方面却面临着挑战。现有的基于NeRF的SLAM方法解决动态问题通常依赖于RGB-D输入，而很少有方法能适应纯RGB输入。为了克服这些局限性，我们提出了Dy3DGS-SLAM，这是首个使用单目RGB输入的针对动态场景的3D高斯泼溅（3DGS）SLAM方法。实验结果证明，Dy3DGS-SLAM在动态环境中实现了最先进的跟踪和渲染效果，优于或达到了现有的RGB-D方法的水平。

• 文章：

Dy3DGS-SLAM: Monocular 3D Gaussian Splatting SLAM for Dynamic Environments

• 作者：

Mingrui Li, Yiming Zhou, Hongxing Zhou, Xinggang Hu, Florian Roemer, Hongyu Wang, Ahmad Osman

• 论文链接：

https://arxiv.org/abs/2506.05965

• 编译：

INDEMIND

01 本文核心内容

近期，基于NeRF或3DGS的密集SLAM系统引起了广泛关注。这些系统在静态场景中实现了逼真的渲染效果，并逐渐向大规模或更具挑战性的场景拓展。然而，由于现实世界中存在大量动态物体，这类SLAM系统在应对这一挑战时却表现不佳。另一个受到关注的问题是如何在不依赖RGB-D传感器，仅使用单目RGB输入的情况下取得更好的效果，该类传感器更易获取，且具有更大的潜力。

尽管一些基于NeRF的方法，如DN-SLAM、DDNSLAM、NID-SLAM和RoDyn-SLAM已尝试解决动态物体的问题，但它们往往依赖于预定义的动态先验或严重依赖深度先验来确定动态物体掩码，这使得它们在仅有单目RGB输入的环境中难以适用。

此外，由于NeRF表示的局限性，渲染精度受到限制，常常导致严重的渲染伪影。基于3DGS的诸如SplaTAM、Photo-SLAM和MonoGS等SLAM系统在静态环境中表现良好，但在动态场景中往往会遇到跟踪失败和建图错误的问题。因此，我们提出了Dy3DGS-SLAM，这是首个专为动态环境设计的仅使用RGB的3DGS-SLAM系统。我们利用光流来获取动态掩码，无需依赖预定义的移动对象，尽管这些掩码在纹理均匀或快速运动的区域可能会有噪声。为了解决这个问题，我们引入了单目深度估计，提供互补的空间线索，特别是在处理遮挡和深度不连续性时。然后，我们提出了一种深度正则化的掩码融合策略，结合了这两种模态的优势，减轻了各自的局限性，生成了更精确、更稳健的动态掩码。

在跟踪方面，我们将估计的深度和融合后的掩码纳入运动损失中，有效地在位姿估计网络中恢复尺度和位姿，从而获得更准确的跟踪结果。在渲染方面，为了解决瞬态干扰和遮挡问题，我们根据动态像素的颜色和深度对动态高斯分布进行惩罚。与基准方法相比，我们的方法显著减少了渲染伪影，并极大地提高了几何精度。

本文的贡献可概括为：

•提出了Dy3DGS-SLAM，这是首个仅基于RGB的适用于动态环境的3DGS-SLAM系统，能够在动态环境中实现稳健的跟踪和高保真度的重建。

• 提出了一种掩码融合方法，通过结合光流的运动线索和深度估计的几何一致性，能够准确地覆盖动态对象。基于融合后的掩码，我们引入了新颖的运动和渲染损失，以有效减轻动态对象在跟踪和渲染中的干扰。

• 在三个真实数据集上的实验结果表明，与基准方法相比，我们的方法在跟踪和渲染性能方面表现更优。

02 方法架构

我们的系统流程如图1所示。我们解决了将从光流获得的动态掩码与从单目输入估计的深度图融合的问题，从而得到精确的动态融合掩码。我们提出了运动估计网络，并引入了结合深度估计的运动损失，使网络能够迭代地优化精确的相机位姿。我们对被标记为动态的像素对应的高斯分布进行惩罚，并基于单目深度应用额外的渲染损失，以优化场景细节。最后，我们利用多视图一致性合成静态场景。

03 实验结果

A.实验细节与指标

数据集和实现细节

我们在三个来自真实世界的公开数据集上进行了评估：TUMRGB-D、AirDOS-Shibuya和BONNRGB-D，这些数据集均捕捉了真实的室内环境。

我们在一台配备单个RTX3090Ti GPU的台式机上进行了SLAM实验。我们展示了针对实时应用设计的多进程实现的结果。与3DGS框架一致，时间关键的光栅化和梯度计算均使用CUDA实现。

指标和基线方法

为评估相机跟踪精度，我们报告关键帧绝对轨迹误差（ATE）的均方根误差（RMSE）。对于运行时性能和网络迭代速度，我们分别测量每秒帧数（FPS）和毫秒（ms）。GPU使用情况以兆字节（MB）为单位进行评估。我们将我们的Dy3DGS-SLAM方法与传统动态SLAM方法（如ORB-SLAM3、Droid-SLAM、DynaSLAM、DytanVO和ReFusion以及基于 NeRF 的最新 RGB-D 传感器方法（包括 NICE-SLAM、ESLAM、Co-SLAM和NID-SLAM）进行比较。此外，我们还考虑了基于3DGS的SplaTAM。

B.在TUM和BonnRGB-D上的跟踪评估。

跟踪

如表II所示，我们展示了来自TUM数据集的三个高度动态序列、一个轻度动态序列和两个静态序列的结果。

得益于我们提出的动态掩码融合方法，我们的系统在跟踪性能方面优于基于RGB-D的方法，甚至可与传统的SLAM方法相媲美。此外，我们在更复杂且更具挑战性的BONN数据集上评估了跟踪性能，如表I所示。即使在这些更复杂和大规模的场景中，我们的方法也取得了卓越的性能。我们的方法优于所有其他方法，NID-SLAM是唯一一个结果接近我们的方法。此外，我们的方法在性能上优于传统方法。这表明我们的动态掩码融合能够有效地去除动态物体并增强跟踪过程。

建图

为了全面评估我们所提出系统在动态场景中的性能，我们分析了从定性角度来看结果。我们将渲染的图像与从生成的高斯图中获得的真实姿态进行比较，使用与其他方法相同的视角。选择了四个具有挑战性的序列：来自波恩数据集的人群和人员跟踪，以及来自TUMRGBD数据集的f3walkxyzval和f3walkstatic。如图2所示，我们的方法在几何和纹理细节方面显示出显著优势，尤其是在减少伪影方面。值得注意的是，我们的方法基于单目系统，并已在两个真实世界数据集上得到验证，证明了仅使用简单相机即可准确记录动态场景的能力。这突显了我们的方法在有效追踪和重建室内环境方面的潜力，使其成为深度传感器不可用的应用场景中的宝贵工具。

04 总结

我们提出了Dy3DGS-SLAM，这是首个基于3DGS的单目RGB输入的动态场景SLAM方法。该方法首先通过光流估计生成动态对象掩码，将这些掩码与单目深度估计相结合，创建融合掩码并恢复尺度，从而准确捕捉动态对象掩码。为了进一步提高位姿精度，我们基于融合掩码优化了损失函数，减少了多次迭代带来的计算成本。此外，为了增强渲染性能，我们应用了额外的光度和深度损失，以消除瞬态干扰伪影并提高几何精度。实验结果表明，与基线方法相比，Dy3DGS-SLAM在动态环境中实现了最先进的跟踪和渲染性能。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉