CVPR‘25开源 | 远超4DGS!北大新作IGS:高达204 FPS的动态场景重建

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

图片

0. 论文信息

标题:Instant Gaussian Stream: Fast and Generalizable Streaming of Dynamic Scene Reconstruction via Gaussian Splatting

作者:Jinbo Yan, Rui Peng, Zhiyan Wang, Luyang Tang, Jiayu Yang, Jie Liang, Jiahao Wu, Ronggang Wang

机构:Peking University、Pengcheng Laboratory

原文链接:https://arxiv.org/abs/2503.16979

代码链接:https://github.com/yjb6/IGS

1. 导读

与离线训练方法相比,以流的方式构建自由视点视频提供了快速响应的优势,极大地增强了用户体验。然而,当前的流方法面临高的每帧重建时间(10s+)和误差累积的挑战,限制了它们更广泛的应用。在本文中,我们提出了即时高斯流(IGS),一个快速和通用的流媒体框架,以解决这些问题。首先,我们引入了一个广义的锚点驱动的高斯运动网络,它将多视图2D运动特征投影到3D空间,使用锚点驱动所有高斯运动。这个一般化的网络在单个推理所需的时间内为每个目标帧生成高斯运动。其次,我们提出了一种关键帧引导的流策略,该策略细化了每个关键帧,使得能够精确重建时间上复杂的场景,同时减轻误差累积。我们进行了广泛的域内和跨域评估,证明我们的方法可以实现平均每帧重建时间为2s+的流,同时增强视图合成质量。

2. 效果展示

与现有最佳技术的性能比较。我们的方法实现了每帧2.67秒的重建时间,能够以流式方式提供高质量的渲染结果(a)(b),并且在性能上有了显著提升(c)。*表示为可流式处理的方法。

N3DV数据集的定性对比:

3. 引言

从多视图图像重建自由视角视频(FVV)是具有重要价值的研究领域,其应用涵盖沉浸式媒体如VR、AR和体育直播。通过实现可交互的光线级真实感视觉效果,动态场景生成的FVV有望成为下一代视觉媒介,提供超越传统视频格式的全新体验。为提升用户体验,基于流式传输的FVV构建方案——即逐帧重建动态场景——相比传统离线训练方法可提供低延迟响应,更适配实时交互式应用场景。推荐课程:基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]

随着实时渲染技术和基于3D高斯溅射(3DGS)的高质量视图合成技术的进步,动态场景重建领域取得了快速发展。部分离线训练方法虽能实现高质量视图合成,但要求预先收集全部帧数据才能开始训练。这一限制使其难以适应需要快速响应的场景,如直播和虚拟会议。

为应对上述挑战,部分方法采用流式框架,通过建模帧间差异实现逐帧动态场景重建。然而,基于流式传输的动态场景重建仍面临重大挑战:首先,现有方法通常需要逐帧优化,导致高单帧延迟(10秒+),严重影响系统实时可用性;其次,帧间误差累积会降低后续帧重建质量,使得流式方法难以有效扩展至长视频序列。

为推动流式框架的实际应用,我们提出瞬时高斯流(Instant Gaussian Stream, IGS),这是一种动态场景重建的流式方法,实现单帧2秒+的重建时间,缓解误差累积问题并提升视图合成质量。具体贡献如下:

针对单帧重建耗时问题,我们开发了广义锚点驱动高斯运动网络(Anchor-driven Gaussian Motion Network, AGM-Net)。该网络利用称为锚点的一组关键点承载运动特征,引导高斯基元的变换。该设计使得推理过程可通过单次前向传播完成相邻帧间高斯基元的运动计算,无需逐帧优化。

为进一步提升视图合成质量并最小化误差累积,我们提出关键帧引导流式策略。通过建立关键帧序列并对关键帧进行最大点约束优化,该方法有效缓解误差累积影响,提升时域复杂场景的渲染质量。

我们在域内和跨域场景中进行了广泛验证,实验结果表明:模型具有强泛化能力、在单帧重建时间和渲染质量方面显著优于现有方法、据我们所知,这是首个采用通用方法实现动态场景流式重建的方案。

4. 主要贡献

主要贡献总结如下:

• 提出广义锚点驱动高斯运动网络,通过单次推理捕获相邻帧间高斯运动,消除逐帧优化需求

• 设计关键帧引导流式策略,增强方法处理时域复杂场景的能力,在流式框架内提升整体视图合成质量并缓解误差累积

• 域内和跨域评估结果均验证了方法的泛化能力和先进性能:流式重建实现单帧2.7秒处理时间,相比现有方法显著提升;同时改进视图合成质量,在保持存储开销相当的前提下实现204 FPS实时渲染。

5. 方法

我们的目标是建立最小化单帧重建时间的流式动态场景建模方法。为此,采用广义AGM-Net通过锚点提取场景三维运动特征,并在单次推理步骤中驱动高斯基元的帧间运动。同时提出关键帧引导流式策略,在解决流式重建误差累积问题的同时,进一步提升视图合成质量并处理时域复杂场景。整体流程如图2所示。

6. 实验结果

7. 总结

在这篇论文中,我们提出IGS作为一种新颖的基于流的方法,用于建模动态场景。通过采用一种广义化策略,IGS能够以每帧2秒多的时间实现逐帧建模,同时保持先进的渲染质量,并降低存储空间需求。我们引入了一种广义AGM-Net,它将2D多视角运动特征提升到3D锚点上,并利用这些锚点驱动高斯运动。这使得模型能够一步推断出相邻帧之间高斯体的运动。此外,我们还提出了一种“关键帧引导的流式策略即选择并细化关键帧序列,以减轻误差累积,从而进一步提升渲染质量。 广泛的领域内和跨领域的实验表明,我们的模型具有强大的泛化能力,在显著降低流式平均成本的同时,还能达到领先的渲染质量、渲染速度和存储效率。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉硬件

图片

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

图片

3D视觉全栈学习课程:www.3dcver.com

image

3D视觉交流群成立啦

图片 添加微信:cv3d001,备注:方向+单位,邀请入群 点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值