RefSR-NeRF: Towards High Fidelity and Super Resolution View Synthesis

最新推荐文章于 2025-01-21 15:54:38 发布

Hishallyi

最新推荐文章于 2025-01-21 15:54:38 发布

阅读量1.9k

点赞数 19

CC 4.0 BY-SA版权

分类专栏： CV论文分享文章标签：深度学习人工智能 pytorch 算法

本文链接：https://blog.csdn.net/Hi_shallyi/article/details/136067222

RefSR-NeRF：迈向高保真度和超分辨率的视图合成

论文链接：https://arxiv.org/abs/2112.01759

出处： CVPR 2023

1. 摘要

论文提出了一种参考引导的超分神经辐射场 (RefSR-NeRF)，它将 NeRF 扩展到超分辨率和逼真的新颖视图合成。NeRF 在高分辨率渲染中存在模糊问题，因为其固有的多层感知器难以学习高频细节，并且随着分辨率的增加而导致计算爆炸。因此论文提出了 RefSR-NeRF，这是一个端到端框架，首先学习低分辨率 NeRF 表示，然后借助高分辨率参考图像重建高频细节。作者观察到由于退化模型的分歧，简单地引入文献中的预训练模型往往会产生不满意的工件。为此，作者又设计了一种新颖的轻量级 RefSR 模型来学习从 NeRF 渲染到目标 HR 渲染的逆退化过程。

实验方面，作者对多个基准的大量实验表明，论文方法在渲染质量、速度和内存使用之间的表现比较均衡，优于或与 NeRF 及其变体相当，同时在少量额外内存使用的情况下实现 52 倍加速。

2. Intro

2.1 论文贡献点

提出了一种新颖的端到端RefSR-NeRF 框架，将NeRF 扩展到高分辨率和逼真的新颖视图合成。
RefSR-NeRF 可以作为一种新颖的 NeRF 加速范例，可以显着缓解 NeRF 计算和缓存随着分辨率提高而爆炸的问题。
大量实验表明，RefSR-NeRF 在定性和定量上均大幅优于基线工作，同时速度提高了 52 倍。

2.2 方向内相关工作

尽管 NeRF 可以通过空间插值在任何分辨率下呈现新颖的视图，但它会丢失细节和大量的计算开销。 NeRF-SR [43] 与本论文的有点相似，它使用超级采样直接渲染 HR 图像，并引入参考图像来进一步微调结果。然而，本质上，超级采样不能节省任何计算资源，因此 NeRF-SR 对于资源有限的移动设备来说不可行。作者观察到，很少有研究致力于从分辨率压缩的角度加速 NeRF。在本节中简要地回顾效率改进和基于参考的超分辨率领域的进展。

2.2.1 效率改进

渲染新颖的视图图像所需的漫长训练和推理时间已成为 NeRF 社区长期存在的问题。

为了利用这一缺陷，KiloNeRF [33] 将一个大 MLP 分成大约一千个微小 MLP，每个微小 MLP 独立编码一个分区的小区域。 NeX [48]提出了一种深度预言网络，可以预测每个观察光线的光线样本位置，以减少样本数量。

另一种通用方法是使用离散体积表示来离线存储几何特征或属性，并在渲染阶段重新加载它们[37,22,49,58]。 DIVeR [49] 使用基于体素的特征场来表示整个场景，并利用体渲染积分的确定性而不是随机估计。 NSVF [22]定义了一组以稀疏体素八叉树组织的体素边界隐式字段，以指导和减少采样。 FastNeRF [11] 通过将 NeRF 缓存到密集体素网格中来取代多层感知器。 PlenOctrees [58] 利用基于稀疏体素的八叉树，其中每个节点存储密度和外观值来对点处的辐射率进行建模。 Efficient-NeRF [15]进一步将 3D 场景预先制成密集和稀疏体素，以加速 NeRF 渲染。除了不透明度和颜色信息之外，SNeRG [13]还将依赖于视图的学习特征向量存储到稀疏体素网格中。通过预先计算属性（即密度、球谐系数 [58, 10] 或学习的特征）并将其缓存到特定的数据结构中，可以显着加快渲染速度，但这种方法会产生大量的内存开销，并且容易产生次优的几何形状解决方案[37]。

相比之下，我们的方法实现了几个数量级的加速并保持了 NeRF 的简单性。

2.2.2 基于参考的图片超分辨

基于参考的图像超分辨率（RefSR）旨在通过传输参考帧的高频细节来利用辅助参考（Ref）图像来超分辨率低分辨率（LR）图像。

CrossNet [63] 估计 Ref 和 LR 之间的光流 (OF)，并通过跨尺度扭曲将它们对齐到相同的分辨率。 TTSR [55]将LR和参考图像视为变压器中的查询和键，并提出了纹理传输和合成的硬关注和软关注。 C2Matching [17] 提出了一个对比对应网络来学习 LR 和参考图像之间的关系，然后利用师生相关性蒸馏和残差特征聚合来合成 HR 图像。为了匹配 LR 和具有显着差异的参考图像之间的对应关系，Cao 等人 [3] 提出了一个可变形的注意力 Transformer 来聚合特征和相关纹理。 NeRF与RefSR结合，可以加速低分辨率渲染，并在参考帧的帮助下恢复高频信息。

但是，现成的SR方法适用于特定的下采样退化模型，不适用于退化模型不确定的NeRF。为此，我们提出了一个聚合模块来准确地适应 NeRF 中的下采样。

3. 方法

作者在普通 NeRF 上构建 RefSR-NeRF 实现 [26]。一般来说，NeRF及其变体采用随机批量射线采样对每个场景进行训练，这与后面的RefSR模型训练不兼容。相反，作者通过使用补丁射线采样策略来构建这个端到端管道，以便为 RefSR 模型提供空间上下文信息，从而使端到端训练成为可能。另一个障碍是 NeRF 渲染过程呈现出新的退化模型，因此引入现成的 RefSR 模型很容易产生伪像，并且 NeRF 中的场景优化范例的场景参数过多。

3.1 Nerf预备知识

NeRF 通过使用 MLP 网络来近似连续 5D 场景表示，具体而言，将 3D 位置 x = (x, y, z) 和 2D 视角方向 d = (θ, φ) 作为输入，输出为发射的颜色 c = (r, g, b) 和体积密度 σ 。简而言之，这个映射过程可以写成： $F_\Theta :(\bold{x},\bold{d})x \mapsto (\bold{c}, \sigma )$ 。结合光线追踪方法，Ne