RefSR-NeRF:迈向高保真度和超分辨率的视图合成
论文链接:https://arxiv.org/abs/2112.01759
出处: CVPR 2023
1. 摘要
论文提出了一种参考引导的超分神经辐射场 (RefSR-NeRF),它将 NeRF 扩展到超分辨率和逼真的新颖视图合成。NeRF 在高分辨率渲染中存在模糊问题,因为其固有的多层感知器难以学习高频细节,并且随着分辨率的增加而导致计算爆炸。因此论文提出了 RefSR-NeRF,这是一个端到端框架,首先学习低分辨率 NeRF 表示,然后借助高分辨率参考图像重建高频细节。作者观察到由于退化模型的分歧,简单地引入文献中的预训练模型往往会产生不满意的工件。为此,作者又设计了一种新颖的轻量级 RefSR 模型来学习从 NeRF 渲染到目标 HR 渲染的逆退化过程。
实验方面,作者对多个基准的大量实验表明,论文方法在渲染质量、速度和内存使用之间的表现比较均衡,优于或与 NeRF 及其变体相当,同时在少量额外内存使用的情况下实现 52 倍加速。
2. Intro
2.1 论文贡献点
- 提出了一种新颖的端到端RefSR-NeRF 框架,将NeRF 扩展到高分辨率和逼真的新颖视图合成。
- RefSR-NeRF 可以作为一种新颖的 NeRF 加速范例,可以显着缓解 NeRF 计算和缓存随着分辨率提高而爆炸的问题。
- 大量实验表明,RefSR-NeRF 在定性和定量上均大幅优于基线工作,同时速度提高了 52 倍。
2.2 方向内相关工作
尽管 NeRF 可以通过空间插值在任何分辨率下呈现新颖的视图,但它会丢失细节和大量的计算开销。 NeRF-SR [43] 与本论文的有点相似,它使用超级采样直接渲染 HR 图像,并引入参考图像来进一步微调结果。然而,本质上,超级采样不能节省任何计算资源,因此 NeRF-SR 对于资源有限的移动设备来说不可行。作者观察到,很少有研究致力于从分辨率压缩的角度加速 NeRF。在本节中简要地回顾效率改进和基于参考的超分辨率领域的进展。
2.2.1 效率改进
渲染新颖的视图图像所需的漫长训练和推理时间已成为 NeRF 社区长期存在的问题。
为了利用这一缺陷,KiloNeRF [33] 将一个大 MLP 分成大约一千个微小 MLP,每个微小 MLP 独立编码一个分区的小区域。 NeX [48]提出了一种深度预言网络,可以预测每个观察光线的光线样本位置,以减少样本数量。
另一种通用方法是使用离散体积表示来离线存储几何特征或属性,并在渲染阶段重新加载它们[37,22,49,58]。 DIVeR [49] 使用基于体素的特征场来表示整个场景,并利用体渲染积分的确定性而不是随机估计。 NSVF [22]定义了一组以稀疏体素八叉树组织的体素边界隐式字段,以指导和减少采样。 FastNeRF [11] 通过将 NeRF 缓存到密集体素网格中来取代多层感知器。 PlenOctrees [58] 利用基于稀疏体素的八叉树,其中每个节点存储密度和外观值来对点处的辐射率进行建模。 Efficient-NeRF [15]进一步将 3D 场景预先制成密集和稀疏体素,以加速 NeRF 渲染。除了不透明度和颜色信息之外,SNeRG [13]还将依赖于视图的学习特征向量存储到稀疏体素网格中。通过预先计算属性(即密度、球谐系数 [58, 10] 或学习的特征)并将其缓存到特定的数据结构中,可以显着加快渲染速度,但这种方法会产生大量的内存开销,并且容易产生次优的几何形状解决方案[37]。
相比之下,我们的方法实现了几个数量级的加速并保持了 NeRF 的简单性。
2.2.2 基于参考的图片超分辨
基于参考的图像超分辨率(RefSR)旨在通过传输参考帧的高频细节来利用辅助参考(Ref)图像来超分辨率低分辨率(LR)图像。
CrossNet [63] 估计 Ref 和 LR 之间的光流 (OF),并通过跨尺度扭曲将它们对齐到相同的分辨率。 TTSR [55]将LR和参考图像视为变压器中的查询和键,并提出了纹理传输和合成的硬关注和软关注。 C2Matching [17] 提出了一个对比对应网络来学习 LR 和参考图像之间的关系,然后利用师生相关性蒸馏和残差特征聚合来合成 HR 图像。为了匹配 LR 和具有显着差异的参考图像之间的对应关系,Cao 等人 [3] 提出了一个可变形的注意力 Transformer 来聚合特征和相关纹理。 NeRF与RefSR结合,可以加速低分辨率渲染,并在参考帧的帮助下恢复高频信息。
但是,现成的SR方法适用于特定的下采样退化模型,不适用于退化模型不确定的NeRF。为此,我们提出了一个聚合模块来准确地适应 NeRF 中的下采样。
3. 方法
作者在普通 NeRF 上构建 RefSR-NeRF 实现 [26]。一般来说,NeRF及其变体采用随机批量射线采样对每个场景进行训练,这与后面的RefSR模型训练不兼容。相反,作者通过使用补丁射线采样策略来构建这个端到端管道,以便为 RefSR 模型提供空间上下文信息,从而使端到端训练成为可能。另一个障碍是 NeRF 渲染过程呈现出新的退化模型,因此引入现成的 RefSR 模型很容易产生伪像,并且 NeRF 中的场景优化范例的场景参数过多。
3.1 Nerf预备知识
NeRF 通过使用 MLP 网络来近似连续 5D 场景表示,具体而言,将 3D 位置 x = (x, y, z) 和 2D 视角方向 d = (θ, φ) 作为输入,输出为发射的颜色 c = (r, g, b) 和体积密度 σ 。简而言之,这个映射过程可以写成:。结合光线追踪方法,Ne