中文标题:NerfingMVS: 基于神经辐射场的引导优化的室内多视角双目深度估计
创新点
- 使用NeRF估计多幅双目场景深度
- 发现NeRF中形状-辐射模糊成为深度估计的主要瓶颈,提出用用基于学习的深度先验训练NeRF
方法总结
深度先验的场景适应
- 和CVD[2]方法类似,都希望在测试阶段利用基于学习的先验优化几何结构,但是文中提出的方法并不会在测试阶段使用相同的单目深度估计网络,而是让网络适应每一个场景获得特定场景的先验。
- 论文提出的方法是在传统稀疏重建算法基础上调整单目深度网络。通过在每个视角下投影COLMAP生成的空间点云集合获得该视角下的深度先验。然后利用尺度不变损失函数进行监督:
DpD_pDp为预测深度,DsparseD_sparseDsparse为稀疏的深度先验。
NeRF的引导优化
- NeRF虽然能产生PSNR很高的照片(a),但是其渲染出的深度©与真实深度(d)相差很远。在小样本情况下,NeRF不能学习到准确的3D几何信息。
- 每个视角的颜色C(r)C(r)C(r)可以通过沿射线有限次采样的提渲染得到,每个视角的深度D(r)D(r)D(r)可以通过计算沿射线采样点的期望获得:
TiT_iTi代表沿射线累积投射率
δi\delta_iδi代表采样点间的距离 - 将DiD_iDi通过位姿变化Ti→jT^{i \rightarrow j}Ti→j以及内参K转化到第j个视野,并与DjD_jDj计算误差:
- 使用误差计算采样范围tn与tft_n与t_ftn与tf。
- 对于深度低误差区域,采样相对较集中。
推理和视角合成
- 为了进一步提高深度预测质量,我们利用了使用NeRF的视图合成结果来计算预测几何的像素置信度。
参考文献:
[1] Wei Y, Liu S, Rao Y, et al. Nerfingmvs: Guided optimization of neural radiance fields for indoor multi-view stereo[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 5610-5619.
[2] Xuan Luo, Jia-Bin Huang, Richard Szeliski, Kevin Matzen, and Johannes Kopf. Consistent video depth estimation. TOG, 39(4):71–1, 2020. 1, 2, 3, 6, 7, 11