RefSR-NeRF: Towards High Fidelity and Super Resolution View Synthesis

RefSR-NeRF:迈向高保真度和超分辨率的视图合成

论文链接:https://arxiv.org/abs/2112.01759

出处: CVPR 2023

1. 摘要

论文提出了一种参考引导的超分神经辐射场 (RefSR-NeRF),它将 NeRF 扩展到超分辨率和逼真的新颖视图合成。NeRF 在高分辨率渲染中存在模糊问题,因为其固有的多层感知器难以学习高频细节,并且随着分辨率的增加而导致计算爆炸。因此论文提出了 RefSR-NeRF,这是一个端到端框架,首先学习低分辨率 NeRF 表示,然后借助高分辨率参考图像重建高频细节。作者观察到由于退化模型的分歧,简单地引入文献中的预训练模型往往会产生不满意的工件。为此,作者又设计了一种新颖的轻量级 RefSR 模型来学习从 NeRF 渲染到目标 HR 渲染的逆退化过程

实验方面,作者对多个基准的大量实验表明,论文方法在渲染质量、速度和内存使用之间的表现比较均衡,优于或与 NeRF 及其变体相当,同时在少量额外内存使用的情况下实现 52 倍加速。

2. Intro

2.1 论文贡献点

  • 提出了一种新颖的端到端RefSR-NeRF 框架,将NeRF 扩展到高分辨率和逼真的新颖视图合成。
  • RefSR-NeRF 可以作为一种新颖的 NeRF 加速范例,可以显着缓解 NeRF 计算和缓存随着分辨率提高而爆炸的问题。
  • 大量实验表明,RefSR-NeRF 在定性和定量上均大幅优于基线工作,同时速度提高了 52 倍。

2.2 方向内相关工作

尽管 NeRF 可以通过空间插值在任何分辨率下呈现新颖的视图,但它会丢失细节和大量的计算开销。 NeRF-SR [43] 与本论文的有点相似,它使用超级采样直接渲染 HR 图像,并引入参考图像来进一步微调结果。然而,本质上,超级采样不能节省任何计算资源,因此 NeRF-SR 对于资源有限的移动设备来说不可行。作者观察到,很少有研究致力于从分辨率压缩的角度加速 NeRF。在本节中简要地回顾效率改进基于参考的超分辨率领域的进展。

2.2.1 效率改进

渲染新颖的视图图像所需的漫长训练和推理时间已成为 NeRF 社区长期存在的问题。

为了利用这一缺陷,KiloNeRF [33] 将一个大 MLP 分成大约一千个微小 MLP,每个微小 MLP 独立编码一个分区的小区域。 NeX [48]提出了一种深度预言网络,可以预测每个观察光线的光线样本位置,以减少样本数量。

另一种通用方法是使用离散体积表示来离线存储几何特征或属性,并在渲染阶段重新加载它们[37,22,49,58]。 DIVeR [49] 使用基于体素的特征场来表示整个场景,并利用体渲染积分的确定性而不是随机估计。 NSVF [22]定义了一组以稀疏体素八叉树组织的体素边界隐式字段,以指导和减少采样。 FastNeRF [11] 通过将 NeRF 缓存到密集体素网格中来取代多层感知器。 PlenOctrees [58] 利用基于稀疏体素的八叉树,其中每个节点存储密度和外观值来对点处的辐射率进行建模。 Efficient-NeRF [15]进一步将 3D 场景预先制成密集和稀疏体素,以加速 NeRF 渲染。除了不透明度和颜色信息之外,SNeRG [13]还将依赖于视图的学习特征向量存储到稀疏体素网格中。通过预先计算属性(即密度、球谐系数 [58, 10] 或学习的特征)并将其缓存到特定的数据结构中,可以显着加快渲染速度,但这种方法会产生大量的内存开销,并且容易产生次优的几何形状解决方案[37]。

相比之下,我们的方法实现了几个数量级的加速并保持了 NeRF 的简单性。

2.2.2 基于参考的图片超分辨

基于参考的图像超分辨率(RefSR)旨在通过传输参考帧的高频细节来利用辅助参考(Ref)图像来超分辨率低分辨率(LR)图像。

 CrossNet [63] 估计 Ref 和 LR 之间的光流 (OF),并通过跨尺度扭曲将它们对齐到相同的分辨率。 TTSR [55]将LR和参考图像视为变压器中的查询和键,并提出了纹理传输和合成的硬关注和软关注。 C2Matching [17] 提出了一个对比对应网络来学习 LR 和参考图像之间的关系,然后利用师生相关性蒸馏和残差特征聚合来合成 HR 图像。为了匹配 LR 和具有显着差异的参考图像之间的对应关系,Cao 等人 [3] 提出了一个可变形的注意力 Transformer 来聚合特征和相关纹理。 NeRF与RefSR结合,可以加速低分辨率渲染,并在参考帧的帮助下恢复高频信息。

但是,现成的SR方法适用于特定的下采样退化模型,不适用于退化模型不确定的NeRF。为此,我们提出了一个聚合模块来准确地适应 NeRF 中的下采样。

3. 方法

作者在普通 NeRF 上构建 RefSR-NeRF 实现 [26]。一般来说,NeRF及其变体采用随机批量射线采样对每个场景进行训练,这与后面的RefSR模型训练不兼容。相反,作者通过使用补丁射线采样策略来构建这个端到端管道,以便为 RefSR 模型提供空间上下文信息,从而使端到端训练成为可能。另一个障碍是 NeRF 渲染过程呈现出新的退化模型,因此引入现成的 RefSR 模型很容易产生伪像,并且 NeRF 中的场景优化范例的场景参数过多。

3.1 Nerf预备知识

NeRF 通过使用 MLP 网络来近似连续 5D 场景表示,具体而言,将 3D 位置 x = (x, y, z) 和 2D 视角方向 d = (θ, φ) 作为输入,输出为发射的颜色 c = (r, g, b) 和体积密度 σ 。简而言之,这个映射过程可以写成:F_\Theta :(\bold{x},\bold{d})x \mapsto (\bold{c}, \sigma )。结合光线追踪方法,Ne

### RefSR-NeRF介绍 RefSR-NeRF 是一种旨在提高视图合成保真度并实现超分辨率效果的方法。该方法通过学习低分辨率场景表示,随后利用预定义的高分辨率参考图像来恢复高频细节[^1]。 ### 工作原理 核心理念在于分阶段处理:首先构建一个能够描述低分辨率环境的模型;之后,在这个基础上引入高质量图片作为指导,从而增强最终输出的质量。具体来说: - **低分辨率建模**:系统会创建一个粗糙版本的目标空间表述。 - **高分辨率细化**:借助外部提供的清晰样本,调整先前建立的基础框架,注入更多精细特征。 这种设计允许算法专注于特定区域内的优化而不是全局范围内的盲目探索,提高了效率和准确性。 ### 技术实现 为了适应上述流程需求,RefSR-NeRF 对传统神经辐射场(NeRF)进行了改进。不同于常规做法是在整个训练周期内随机选取射线进行采样,这里采取了一次只针对单个图像区块的方式来进行操作。这样的改变使得整体架构可以更好地支持后续用于提升画质的超级解析模块(end-to-end training compatible)。 ```python # 这里展示了一个简化版的概念性伪代码片段,实际实现可能更加复杂 def refsr_nerf_train(image_patch, low_res_scene_rep, high_res_reference): # 更新低分辨率场景表示参数... # 使用给定的高分辨率参考图像微调局部结构... return refined_high_resolution_output ``` ### 应用领域 这种方法特别适用于那些需要精确再现物体外观的应用场合,比如虚拟现实中的物品展示、影视特效制作以及远程医疗成像等领域。它不仅提升了视觉体验的真实感,还能够在一定程度上减少数据传输量,因为只需要传送较低质量的数据流即可在现场重现逼真的画面。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值