0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种适用于动态环境的3DGS-SLAM系统

INDEMIND 来源:INDEMIND 2025-06-13 10:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当前基于神经辐射场(NeRF)或3D高斯泼溅(3DGS)的SLAM方法在重建静态3D场景方面表现出色,但在动态环境中的跟踪和重建方面却面临着挑战。现有的基于NeRF的SLAM方法解决动态问题通常依赖于RGB-D输入,而很少有方法能适应纯RGB输入。为了克服这些局限性,我们提出了Dy3DGS-SLAM,这是首个使用单目RGB输入的针对动态场景的3D高斯泼溅(3DGS)SLAM方法。实验结果证明,Dy3DGS-SLAM在动态环境中实现了最先进的跟踪和渲染效果,优于或达到了现有的RGB-D方法的水平。

• 文章:

Dy3DGS-SLAM: Monocular 3D Gaussian Splatting SLAM for Dynamic Environments

• 作者:

Mingrui Li, Yiming Zhou, Hongxing Zhou, Xinggang Hu, Florian Roemer, Hongyu Wang, Ahmad Osman

• 论文链接:

https://arxiv.org/abs/2506.05965

• 编译:

INDEMIND

01 本文核心内容

近期,基于NeRF或3DGS的密集SLAM系统引起了广泛关注。这些系统在静态场景中实现了逼真的渲染效果,并逐渐向大规模或更具挑战性的场景拓展。然而,由于现实世界中存在大量动态物体,这类SLAM系统在应对这一挑战时却表现不佳。另一个受到关注的问题是如何在不依赖RGB-D传感器,仅使用单目RGB输入的情况下取得更好的效果,该类传感器更易获取,且具有更大的潜力。

尽管一些基于NeRF的方法,如DN-SLAM、DDNSLAM、NID-SLAM和RoDyn-SLAM已尝试解决动态物体的问题,但它们往往依赖于预定义的动态先验或严重依赖深度先验来确定动态物体掩码,这使得它们在仅有单目RGB输入的环境中难以适用。

此外,由于NeRF表示的局限性,渲染精度受到限制,常常导致严重的渲染伪影。基于3DGS的诸如SplaTAM、Photo-SLAM和MonoGS等SLAM系统在静态环境中表现良好,但在动态场景中往往会遇到跟踪失败和建图错误的问题。因此,我们提出了Dy3DGS-SLAM,这是首个专为动态环境设计的仅使用RGB的3DGS-SLAM系统。我们利用光流来获取动态掩码,无需依赖预定义的移动对象,尽管这些掩码在纹理均匀或快速运动的区域可能会有噪声。为了解决这个问题,我们引入了单目深度估计,提供互补的空间线索,特别是在处理遮挡和深度不连续性时。然后,我们提出了一种深度正则化的掩码融合策略,结合了这两种模态的优势,减轻了各自的局限性,生成了更精确、更稳健的动态掩码。

在跟踪方面,我们将估计的深度和融合后的掩码纳入运动损失中,有效地在位姿估计网络中恢复尺度和位姿,从而获得更准确的跟踪结果。在渲染方面,为了解决瞬态干扰和遮挡问题,我们根据动态像素的颜色和深度对动态高斯分布进行惩罚。与基准方法相比,我们的方法显著减少了渲染伪影,并极大地提高了几何精度。

本文的贡献可概括为:

•提出了Dy3DGS-SLAM,这是首个仅基于RGB的适用于动态环境的3DGS-SLAM系统,能够在动态环境中实现稳健的跟踪和高保真度的重建。

• 提出了一种掩码融合方法,通过结合光流的运动线索和深度估计的几何一致性,能够准确地覆盖动态对象。基于融合后的掩码,我们引入了新颖的运动和渲染损失,以有效减轻动态对象在跟踪和渲染中的干扰。

• 在三个真实数据集上的实验结果表明,与基准方法相比,我们的方法在跟踪和渲染性能方面表现更优。

02 方法架构

我们的系统流程如图1所示。我们解决了将从光流获得的动态掩码与从单目输入估计的深度图融合的问题,从而得到精确的动态融合掩码。我们提出了运动估计网络,并引入了结合深度估计的运动损失,使网络能够迭代地优化精确的相机位姿。我们对被标记为动态的像素对应的高斯分布进行惩罚,并基于单目深度应用额外的渲染损失,以优化场景细节。最后,我们利用多视图一致性合成静态场景。

92894d70-45f3-11f0-b715-92fbcf53809c.png

03 实验结果

A.实验细节与指标

数据集和实现细节

我们在三个来自真实世界的公开数据集上进行了评估:TUMRGB-D、AirDOS-Shibuya和BONNRGB-D,这些数据集均捕捉了真实的室内环境。

我们在一台配备单个RTX3090TiGPU的台式机上进行了SLAM实验。我们展示了针对实时应用设计的多进程实现的结果。与3DGS框架一致,时间关键的光栅化和梯度计算均使用CUDA实现。

指标和基线方法

为评估相机跟踪精度,我们报告关键帧绝对轨迹误差(ATE)的均方根误差(RMSE)。对于运行时性能和网络迭代速度,我们分别测量每秒帧数(FPS)和毫秒(ms)。GPU使用情况以兆字节(MB)为单位进行评估。我们将我们的Dy3DGS-SLAM方法与传统动态SLAM方法(如ORB-SLAM3、Droid-SLAM、DynaSLAM、DytanVO和ReFusion以及基于 NeRF 的最新 RGB-D 传感器方法(包括 NICE-SLAM、ESLAM、Co-SLAM和NID-SLAM)进行比较。此外,我们还考虑了基于3DGS的SplaTAM。

B.在TUM和BonnRGB-D上的跟踪评估。

跟踪

如表II所示,我们展示了来自TUM数据集的三个高度动态序列、一个轻度动态序列和两个静态序列的结果。

929d496a-45f3-11f0-b715-92fbcf53809c.png

92b36c54-45f3-11f0-b715-92fbcf53809c.png

得益于我们提出的动态掩码融合方法,我们的系统在跟踪性能方面优于基于RGB-D的方法,甚至可与传统的SLAM方法相媲美。此外,我们在更复杂且更具挑战性的BONN数据集上评估了跟踪性能,如表I所示。即使在这些更复杂和大规模的场景中,我们的方法也取得了卓越的性能。我们的方法优于所有其他方法,NID-SLAM是唯一一个结果接近我们的方法。此外,我们的方法在性能上优于传统方法。这表明我们的动态掩码融合能够有效地去除动态物体并增强跟踪过程。

建图

92c93a66-45f3-11f0-b715-92fbcf53809c.png

为了全面评估我们所提出系统在动态场景中的性能,我们分析了从定性角度来看结果。我们将渲染的图像与从生成的高斯图中获得的真实姿态进行比较,使用与其他方法相同的视角。选择了四个具有挑战性的序列:来自波恩数据集的人群和人员跟踪,以及来自TUMRGBD数据集的f3walkxyzval和f3walkstatic。如图2所示,我们的方法在几何和纹理细节方面显示出显著优势,尤其是在减少伪影方面。值得注意的是,我们的方法基于单目系统,并已在两个真实世界数据集上得到验证,证明了仅使用简单相机即可准确记录动态场景的能力。这突显了我们的方法在有效追踪和重建室内环境方面的潜力,使其成为深度传感器不可用的应用场景中的宝贵工具。

04 总结

我们提出了Dy3DGS-SLAM,这是首个基于3DGS的单目RGB输入的动态场景SLAM方法。该方法首先通过光流估计生成动态对象掩码,将这些掩码与单目深度估计相结合,创建融合掩码并恢复尺度,从而准确捕捉动态对象掩码。为了进一步提高位姿精度,我们基于融合掩码优化了损失函数,减少了多次迭代带来的计算成本。此外,为了增强渲染性能,我们应用了额外的光度和深度损失,以消除瞬态干扰伪影并提高几何精度。实验结果表明,与基线方法相比,Dy3DGS-SLAM在动态环境中实现了最先进的跟踪和渲染性能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 相机
    +关注

    关注

    4

    文章

    1496

    浏览量

    54870
  • RGB
    RGB
    +关注

    关注

    4

    文章

    813

    浏览量

    60393
  • SLAM
    +关注

    关注

    24

    文章

    446

    浏览量

    32668

原文标题:Dy3DGS-SLAM:适用于动态环境的3DGS-SLAM,仅需单目RGB

文章出处:【微信号:gh_c87a2bc99401,微信公众号:INDEMIND】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一种适用于模拟/数字混合信号环境的接地技术

    本文分享了一种适用于模拟/数字混合信号环境的接地技术。
    发表于 04-25 07:46

    一种适用于室内复杂环境的高精度、环境自适应性强的定位算法

    摘要对于室内复杂环境来说, 适用于室外定位的 GPS 系统和蜂窝移动网络在室内中的定位精度明显恶化, 无法满足室内用户精确定位的需求。因此, 研究一种
    发表于 08-18 08:12

    一种适用于嵌入式系统的模块动态加载技术

    嵌入式系统中的模块动态加载技术摘要提出一种适用于嵌入式系统的模块动态加载技术,设计实现简单,占用
    发表于 12-20 06:32

    一种适用于医学领域的频率可调滤波器

    一种适用于医学领域的频率可调滤波器_李严
    发表于 01-07 16:06 0次下载

    一种特别适用于片上LDO系统的过流保护电路

    一种特别适用于片上LDO系统的过流保护电路_胡佳俊
    发表于 01-07 16:52 22次下载

    一种适用于SoC的瞬态增强型线性稳压器_张琪

    一种适用于SoC的瞬态增强型线性稳压器_张琪
    发表于 01-07 22:23 0次下载

    一种适用于钢管厂的自动称重及重量分摊系统_郭雅默

    一种适用于钢管厂的自动称重及重量分摊系统_郭雅默
    发表于 01-13 21:36 0次下载

    基于一种适用于恶劣安装环境的MS6000水情监测系统介绍

    MS6000水情监测系统,是款无线、低功耗、免维护、适用于恶劣安装环境的综合型遥测设备。设备针对水文遥测点多分布在野外、无电源的特点而专门设计,可广泛
    的头像 发表于 03-15 17:04 2474次阅读

    一种适用于动态场景的SLAM方法

    同时定位与地图构建(SLAM)作为机器人领域的硏究热点,近年来取得了快速发展,但多数SLAM方法未考虑应用场景中的动态或可移动目标。针对该问题,提出一种
    发表于 03-18 10:39 21次下载
    <b class='flag-5'>一种</b><b class='flag-5'>适用于</b><b class='flag-5'>动态</b>场景的<b class='flag-5'>SLAM</b>方法

    一种基于直接法的动态稠密SLAM方案

    基于特征点法的视觉SLAM系统很难应用于稠密建图,且容易丢失动态对象。而基于直接法的SLAM系统
    的头像 发表于 03-13 09:38 1714次阅读

    一种适用于动态场景的多层次地图构建算法

    本文提出了一种适用于动态场景的多层次地图构建算法,如图1所示的系统框架。首先,利用YOLOX[8]获取场景的语义信息,采用多目标跟踪算法对漏检进行补偿,利用DBSCAN密度聚类算法和深
    发表于 08-28 10:56 1087次阅读
    <b class='flag-5'>一种</b><b class='flag-5'>适用于</b><b class='flag-5'>动态</b>场景的多层次地图构建算法

    一种适用于动态环境的实时视觉SLAM系统

    既能保证效率和精度,又无需GPU,行业第个达到此目标的视觉动态SLAM系统
    的头像 发表于 09-30 14:35 1506次阅读
    <b class='flag-5'>一种</b><b class='flag-5'>适用于</b><b class='flag-5'>动态</b><b class='flag-5'>环境</b>的实时视觉<b class='flag-5'>SLAM</b><b class='flag-5'>系统</b>

    三维高斯泼溅大规模视觉SLAM系统解析

    近期兴起的神经辐射场(NeRF)与三维高斯泼溅(3DGS)技术在视觉SLAM中展现出令人鼓舞的突破性成果。然而,当前主流方法多依赖RGBD传感器,并且仅适用于室内环境。在大规模室外场景
    的头像 发表于 05-27 14:13 608次阅读
    三维高斯泼溅大规模视觉<b class='flag-5'>SLAM</b><b class='flag-5'>系统</b>解析

    一种适用于动态环境的实时RGB-D SLAM系统

    了UP-SLAM,这是一种适用于动态环境的实时RGB-D SLAM
    的头像 发表于 07-04 15:14 408次阅读
    <b class='flag-5'>一种</b><b class='flag-5'>适用于</b><b class='flag-5'>动态</b><b class='flag-5'>环境</b>的实时RGB-D <b class='flag-5'>SLAM</b><b class='flag-5'>系统</b>

    一种适用于动态环境的自适应先验场景-对象SLAM框架

    由于传统视觉SLAM动态场景中容易会出现严重的定位漂移,本文提出了一种新颖的基于场景-对象的可靠性评估框架,该框架通过当前帧质量指标以及相对于可靠参考帧的场景变化,全面评估SLAM
    的头像 发表于 08-19 14:17 184次阅读
    <b class='flag-5'>一种</b><b class='flag-5'>适用于</b><b class='flag-5'>动态</b><b class='flag-5'>环境</b>的自适应先验场景-对象<b class='flag-5'>SLAM</b>框架