【论文精读】FreeSplat-CSDN博客

本文链接：https://blog.csdn.net/YuhsiHu/article/details/146124510

今天读一篇NeurIPS2024的文章，FreeSplat: Generalizable 3D Gaussian Splatting Towards Free-View Synthesis of Indoor Scenes Reconstruction，该文章提出的方法能够从长序列输入重建几何一致的 3D 场景以实现自由视角合成，作者来自NTU。
项目地址：FreeSplat

Abstract

3DGS的generalization能力较弱，现有方法主要局限于窄范围视角的插值，无法有效定位 3D 高斯点，导致难以实现自由视角合成。FreeSplat提出了：

低成本的跨视角特征聚合 (Low-cost Cross-View Aggregation)，通过在相邻视角间构建自适应代价体 (adaptive cost volume)，并采用多尺度特征聚合来增强特征匹配。
像素级三元组融合 (Pixel-wise Triplet Fusion, PTF)，用于消除多视角重叠区域的冗余高斯点，并聚合跨视角的特征。
自由视角训练策略 (Free-View Training, FVT)，在不同数量的输入视角下进行训练，以确保模型在更广视角范围内生成稳定的视图。
实验表明，FreeSplat在新视角合成质量和深度估计精度方面均达到了SOTA，同时推理更高效，并有效减少冗余的高斯点，使得无需深度先验即可进行前向大场景重建。

1 Introduction

主要挑战：

3D 高斯点的全局定位问题：现有方法的监督主要依赖在视角内插值，这常常导致3D高斯点定位不准确，如果要渲染的是更外面的视角，就容易出现floating现象。
冗余高斯点问题：进一步的，多视角信息通常通过简单的concatenation进行融合，导致在重叠区域产生冗余高斯点。
长序列输入的计算成本：由于跨视角匹配的计算成本随序列长度增加，现有方法难以处理长序列输入，影响泛化能力。

基于上面提出的问题，论文的贡献如下：

提出低成本跨视角特征聚合 (Low-cost Cross-View Aggregation)，构建自适应代价体进行特征匹配，提高长序列输入下的计算效率。
提出像素级三元组融合 (Pixel-wise Triplet Fusion, PTF)，减少重叠区域的冗余 3D 高斯点，并有效聚合跨视角特征。
得益于前两个高效的模块减轻了资源开销，我们提出自由视角训练策略 (Free-View Training, FVT)，在不同数量的输入视角上进行训练，而不需要局限于只能输入两三个视角。这样，我们可以提高模型泛化性。

2 Related Work

介绍一些相关工作，包括新视角合成这个任务、该任务的generalization问题，还有室内scene reconstruction。

3 Preliminary

介绍3D-GS与generalizable 3D-GS。

4 Our Methodology

在这里插入图片描述

4.1 Overview

核心目标是提高3DGS的泛化能力，使其能够处理长序列输入并支持自由视角合成。为此，本文提出了两个关键模块：

Low-cost Cross-View Aggregation：
- 通过构建adaptive cost volume进行高效特征匹配。
- 采用multi-scale feature aggregation来增强3D高斯点的全局定位能力。
Pixel-wise Triplet Fusion：
- 在像素级对齐多视角3D高斯点，减少重叠区域的冗余点云。
- 使用轻量级 GRU进行跨视角特征融合，提高3D高斯点的准确性。

整体流程如下：

从输入的稀疏图像序列提取特征。
在相邻视角之间构建cost volume并进行深度估计。
通过unprojection将图像特征转换为gaussian triplets。
采用PTF模块逐步融合局部和全局高斯点，并去除冗余。这样我们就可以在latent feature space中融合冗余3D gaussians并且在decoding之前就结合多视角gaussian features。
最终，解码高斯点的参数，并渲染新的视角图像。

4.2 Low-cost Cross-View Aggregation

4.2.1 Efficient 2D Feature Extraction

给定输入的稀疏图像序列 ${I_t\}_{t=1}^{T}$ ，首先提取多尺度特征：
$F_e^t = \text{CNN}(I_t) \\ F_m^t = \text{CNN}_m(I_t)$
其中：
- $F_e^t$ 是multi-scale embeddings
- $F_m^t$ 是matching feature
区别于PixelSplat和MVSplat：
- 现存的方法依赖基于Transformer的特征提取，计算量大。
- 我们的FreeSplat采用纯CNN进行高效特征提取，提高计算效率。

4.2.2 Adaptive Cost Volume

目标：利用相机位姿信息，在任意长度的输入视角之间构建cost volume。
步骤：
1. 选择 N 个最近的相邻视角 ${I^{t_n}\}_{n=1}^{N}$ 。
2. 定义 K 个虚拟深度平面 ${d_k\}_{k=1}^{K}$ ，其中：
  $d_k \in [d_{\text{near}}, d_{\text{far}}]$
3. 将相邻视角的特征投影到深度平面 $d_{k}$ 上：
  $\tilde{F}_m^{t_n, k} = \text{Trans}(P^{t_n}, P^t) F_m^{t_n}$
  其中， $\text{Trans}(P^{t_n}, P^t)$ 是视角 $t_{n}$ 到 $t$ 的transformation matrix。
4. 计算cost volume， $F_{cv}^{t} \in \mathbb{R}^{K \times \frac{H}{4} \times \frac{W}{4}}$ ：
  $F_{\text{cv}}^t(k) = f_{\theta} \left(( \frac{1}{N} \sum_{n=1}^{N} \cos(F_m^t, \tilde{F}_m^{t_n, k})) \oplus (\frac{1}{N} \sum_{n=1}^{N} \tilde{F}_m^{t_n, k}) \right)$
  其中：
  - $\cos(\cdot, \cdot)$ 计算余弦相似度
  - $\oplus$ 代表特征concatenation
  - $f_{\theta}(\cdot)$ 是一个 $\times 1$ CNN映射到维度1
    在这里，前面算的是每个matching feature在不同深度假设下和current view的特征的相似度，然后求平均，后面算的是相邻视角特征本身转到当前视角后的值，再平均。然后把这些信息拼接再卷积。

4.2.3 Multi-Scale Feature Aggregation

目标：增强代价体的全局感受野，提升3D高斯点的准确性。
方法：
1. 使用多尺度 U-Net++ 结构。先Encode代价体，然后与多尺度特征拼接，再交给U-Net++融合，upsample到full resolution并得到depth candidates map和gaussian triplet map：
  $F_{\text{agg}}^t = \text{U-Net}(Enc(F_{\text{cv}}^{t}), \{F_s^t\})$
2. 通过Softmax 预测深度。第一步得到了得到深度的candidates map $D_{c}^{t} \in \mathbb{R}^{K \times H \times W}$ 和Gaussian triplet map $F_{l}^{t} \in \mathbb{R}^{C \times H \times W}$ ，再使用Sfotmax操作：
  $D^t = \sum_{k=1}^{K} \text{softmax}(D_c^t)_k \cdot d_k$
3. 然后，pixel-align的 $F_{l}^{t}$ 通过unprojection得到3D 高斯三元组：
  $\{\mu_l^t, \omega_l^t, f_l^t\}$
  其中， $\mu_l^t \in \mathbb{R}^{3 \times HW}$ 是高斯中心， $\omega_l^t \in \mathbb{R}^{1 \times HW}$ 是(0,1)之间的权重， $f_l^t \in \mathbb{R}^{(C-1) \times HW}$ 是Gaussian triplet features。

4.3 Pixel-wise Triplet Fusion

4.3.1 Pixel-wise Alignment

目标：以前的方法pixel-align会导致重叠区域有很多冗余高斯，并且最多也只使用opacity来简单结合多视角下相同区域的高斯。我们想要匹配local和global 3D高斯点。
方法：
1. 将全局高斯点投影到当前视角。给定Gaussian triplets $\{\mu_l^t, f_l^t\}_{t=1}^{T}$ ，我们从 $t = 1$ 开始，我们把3D的高斯中心 $\mu_g^{t-1} \in \mathbb{R}^{3 \times M}$ 投影到该视角：
  $p_g^t = \{x_{g}^{t}, y_{g}^{t}, d_{g}^{t}\} =P^t \mu_g^{t-1}$
  其中 ${x_{g}^{t}, y_{g}^{t}, d_{g}^{t}\}$ 是projected 2D坐标和深度。
2. 寻找像素级匹配。现在我们要处理当前图像的局部高斯了。我们希望回答一个问题：
  当前图像的这个局部高斯点，是不是和一个全局高斯点在同一个像素位置？
  对于第 $i$ 个local Gaussian，坐标为 $x_l^t(i),y_l^t(i)]$ ，深度为 $d_{l}^{t}(j)$ ，我们找到intra-pixel global projection：
  $S_t^i = \{ j | [x_g^t(j)] = x_l^t(i), [y_g^t(j)] = y_l^t(i) \}$
  其中 $[\cdot, \cdot]$ 是rounding操作。这是查找在同一个像素位置的全局高斯点，取整是因为像素位置必须是整数（图像像素）。
3. 根据深度阈值选择最近的匹配。找出深度最近的匹配点，如果深度差异不超过一个阈值：
  $m_i = \arg\min_{j \in S_t^i} \left| d_g^t(j) - d_l^t(i) \right|, \quad \text{if } \left| d_l^t(i) - \min_{j \in S_t^i} d_g^t(j) \right| < \delta \cdot d_l^t(i)$
  其中 $\delta$ 是ratio threshold。这一步是为了避免错误匹配远近不同的点。
  那么，valid correspondence就是：
  $\mathbf{F^{t}} = \{(i,m_{i})|i=1,...,HW;m_{i}\neq \emptyset\}$
  这个集合表示：当前高斯点 $i$ 和全局高斯点 $m_{i}$ 是同一个 3D点的两个版本，我们准备融合它们。

4.3.2 Gaussian Triplet Fusion

目标：融合那些被判定为“同一个3D点”的高斯三元组，减少冗余、保留跨视角信息。
方法：
1. 几何中心融合（更新高斯中心）。给定一个pair $(i,m_{i}) \in \mathbf{F^{t}}$ ，我们计算它们的中心坐标的加权求和，并更新融合后的权重 $\omega$ ，权重更新体现“观测次数累加”的含义，这个点被看到得越多，越重要：
  $\mu_g^t(m_i) = \frac{\omega_l^t(i) \mu_l^t(i) + \omega_g^{t-1}(m_i) \mu_g^{t-1}(m_i)}{\omega_l^t(i) + \omega_g^{t-1}(m_i)}$
  $\omega_{g}^{t}(m_{i}) = \omega_{l}^{t}(i) + \omega_{g}^{t-1}(m_{i})$
2. 特征融合（使用轻量级 GRU）。不同视角下看到的点会有不同特征，我们希望融合这些信息：
  $f_g^t(m_i) = \text{GRU}(f_l^t(i), f_g^{t-1}(m_i))$
  把“当前局部点的特征”当作输入，把“历史上的全局特征”当作 GRU 的 hidden state，从而得到新的融合特征。

4.3.4 Gaussian Primitives Decoding

根据Triplets获得渲染所需的参数：
$\Sigma, \alpha, s = MLP_{d}(f_{g}^{T})$
而高斯中心 $\mu = \mu_{g}^{\top}$ 。

4.4 Training

4.4.1 Loss Functions

采用 均方误差 (MSE) + LPIPS 感知损失：
$\lambda_1 ||C_{\text{render}} - C_{\text{gt}}||^2 + \lambda_2 \text{LPIPS}(C_{\text{render}}, C_{\text{gt}})$
其中：
- $\lambda_1 = 1$ , $\lambda_2 = 0.05$