【论文笔记】GGS: Generalizable Gaussian Splatting for Lane Switching in Autonomous Driving

原创已于 2025-03-02 15:38:36 修改 · 1k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #深度学习 #计算机视觉 #自动驾驶

于 2025-03-02 15:36:39 首次发布

3D Gaussian Splatting（3D高斯溅射）专栏收录该内容

24 篇文章

订阅专栏

原文链接：https://arxiv.org/abs/2409.02382

简介：本文提出了GGS，一种可泛化的高斯溅射方法，可在自动驾驶中的大视角变化下进行真实渲染。由于自动驾驶中的图像通常在单一车道上收集，这种有限的训练视角使得模型难以渲染不同车道下的图像（从而难以开发完整的自动驾驶仿真系统）。本文引入虚拟车道生成模块，可在没有多车道数据集的情况下实现高质量的车道切换（生成切换车道后的图像）。此外，还设计了扩散损失监督虚拟车道图像的生成，以解决缺乏虚拟车道数据的问题。最后，提出深度细化模块，优化GGS中的深度估计。

0. 概述

在这里插入图片描述
本文方法基于泛化模型进行优化，如图所示。输入4帧图像，在多视图深度细化模块中引入邻域特征，以更好地处理遮挡场景。此外，引入更多的全局信息，使用MVS（多视图立体）优化预测的深度图。在虚拟车道生成模块中，本文引入虚拟车道的概念，通过来回切换来解决无多车道数据的问题，使模型能灵活地切换车道。此外，还提出多车道扩散损失监督新视图合成。

1. 背景——MVSplat

MVSplat是可泛化的3D高斯溅射方法，其使用Transformer结构，利用跨视图注意力为每个输入视角建立代价张量，并使用U-Net为每个像素预测深度和高斯参数。3D高斯参数包括中心位置 $x$ ，尺度 $s$ ，旋转角 $q$ ，不透明度 $\alpha$ 和颜色 $c$ 。给定预测的深度图 $D$ 和相机投影矩阵 $P$ （其中内参为 $K$ ），像素 $p_x$ 可按下式被反投影到3D空间：
$x_{p_x}=\Pi^{-1}_P(p_x,D)$

其中 $\Pi$ 表示反投影操作， $x_{p_x}$ 为像素对应的3D位置。不透明度 $\alpha$ 由匹配置信度直接表达。剩余的高斯参数由编码的特征解码：
$s_{p_x}=\mathtt{Softplus}(h_s(\Gamma(p_x)))\\ q_{p_x}=\mathtt{Norm}(h_q(\Gamma(p_x)))\\ c_{p_x}=\mathtt{Sigmoid}(h_c(\Gamma(p_x)))$

其中 $\Gamma$ 表示高维特征向量， $h_s,h_q,h_c$ 分别为尺度头、旋转头和色彩头。

2. 多视图深度细化模块

本文使用多视图深度细化模块来增强MVSplat，从而生成更精确的3D高斯。使用邻域帧内通过Agisoft Metashape重建的反投影点云作为输入U-Net的额外颜色特征。邻域特征表达为
$F_{neighbor_i}=\{F_m|m\in[i-k,i+k]\}$

其中 $i$ 为帧序号， $F_m$ 为第 $m$ 帧的颜色特征， $k$ 为邻域距离。

邻域颜色特征与深度特征通过拼接融合，并通过UNet和高斯参数解码器得到高维高斯参数：
$dep_{ref}=\mathcal U(F_{neighbor_i},dep_i)$

其中 $\mathcal U$ 表示UNet。这种引入邻域帧颜色特征的方法，可以提升泛化模型在障碍遮挡下的新视图合成能力。

此外，为细化深度，还提出基于置信度的方法。3D高斯的透明度越低，则预测深度的置信度越低。当置信度较低时，通过Agisoft Metashape重建反投影的深度图，修正预测深度：
$dep_i=\begin{cases}\beta\hat{dep}_i+(1-\beta)D_i&若\alpha_i<\alpha\\ \hat{dep}_i&否则\end{cases}$

其中 $D_i$ 为投影深度图， $\hat {dep}_i$ 为预测深度， $\alpha,\beta$ 分别为透明度阈值和预测深度的权重。

论文中一些变量名（如 $dep_{ref}$ ）并未得到解释且略为混乱（如 $D$ 在上一节和本节中均出现但含义不同），且上述基于置信度的深度细化并未画在图中，不清楚该模块的具体位置（从变量名命名来看像是在UNet前，但从写作顺序看又像是在UNet后）。

3. 虚拟车道生成模块

获取3D高斯后，为进一步提高大视角变化下的渲染质量，本文引入虚拟车道方法。

虚拟车道变换器用于选择合适的虚拟车道，随后进行垂直于车道的平移，生成虚拟视角。引入虚拟车道模块后，GGS主要包含两个阶段。

第一阶段输入 $N$ 个图像
$ISet_1=\{I_1,\cdots,I_N\}$

并输出目标图像
$\hat I^1=\mathcal G(ISet_1)$

其中 $\mathcal G$ 为GGS模型， $ISet_1$ 为不改变视角的渲染图像（和真值一致）。生成的虚拟车道图像为
$ISet_2=\{\mathcal V(\hat I_k^1,\gamma\sin\theta|k_f\leq k\leq k_l,\theta=\omega k)\}$

其中 $\mathcal V$ 为虚拟车道变换器， $\gamma$ 为平移系数， $k_f.k_l$ 分别为输入的第一帧和最后一帧的序号。 $\omega$ 为切换周期角（每帧的切换角依次周期性变化）。

第二阶段使用生成的虚拟车道图像为输入，生成真实车道的图像：
$\hat I^2=\mathcal G(ISet_2)$

4. 多车道扩散损失

由于改变视角会导致原本被遮挡的区域显露出来，本文利用扩散先验知识想象新视图下的颜色信息。

传统的扩散去噪模型直接补全图像，但不能保证帧间一致性。本文计算去噪前后图像的损失，生成扩散监督的新视角。此外，还建立多车道新视图图像，以保证自动驾驶车道在视角变化下仍然可见。

具体来说，本文使用Stable Diffusion，并用变分自编码器（VAE）编码多车道图像，随后将输入文本固定为自动驾驶标签，进行多个去噪步骤。生成的图像作为新视图合成的监督。

5. 损失函数

本文方法主要包括重建损失、深度损失、虚拟车道切换损失和扩散损失：
$L=L_{recon}+L_{depth}+L_{switch}+L_{diffusion}$

重建损失。比较渲染图像和真实图像的均方误差：
$L_{recon}=\frac1n\sum_{i=1}^n(y_i-\hat y_i)^2$

其中 $y_i$ 表示真实像素的颜色， $\hat y_i$ 表示渲染像素的颜色。

深度损失。相邻像素的深度应该是平滑的、无突变的。因此深度损失如下：
$L_{depth}=\frac1n\sum_{i=1}^n(\frac{dD_i}{dx}+\frac{dD_i}{dy}+\lambda(\frac{d^2D_i}{dx^2}+\frac{d^2D_i}{dy^2}))$