DG-BEV：Towards Domain Generalization for Multi-view 3D Object Detection in Bird-Eye-View-CSDN博客

本文链接：https://blog.csdn.net/m_buddy/article/details/131426749

参考代码：暂无

1. 概述

介绍：BEV算法部署过程中会遇到camera的变化，这个变化包含了相机内外参数，其中内参决定了成像物体在图像中的大小，外参决定了物体成像的位置。对此文章提出了一种内外参数对齐的方案（工作是以BEVDepth为基准），对于内参导致的物体大小问题采用深度补偿的方式解决，对于外参数导致的成像位置变化采用单应矩阵映射的解决，同时为了使得图像特征对于相机内参鲁棒，设计了一个Domain Classifier去提升生成特征的泛化能力。不过从实际效果上看最后一个改进效果相比前面两种不是那么明显。

对于相机内外参对物体成像的差异见下图所示：
在这里插入图片描述
从上图可知相机的内外参会对物体在图像中成像的大小和位置带来差异，则只有将内外参数对齐才能避免在target domain中掉点严重。

2. 方法实现

文章的方法其实就是对内外参数进行补偿和适应，同时添加类似GAN Loss的方式使得图像特征对内参鲁棒，也就是对应下图中的三个部分：
在这里插入图片描述

内参对齐（IDD）：
相机的内参中焦距起到了比较关键的作用，它很大程度上决定了物体在图像上的成像大小，则基于LSS方案的算法中深度估计就会存在问题，对此最直接的思路便是对深度的scale进行补偿，也就是对网络深度估计结果进行如下变换：
$d=\frac{s}{c}\cdot d_m$
其中当前尺度的计算描述为：
$s=\sqrt{\frac{1}{f_x^2}+\frac{1}{f_y^2}}$
其中， $c$ 是ref-camera的基准。其实除了这种方式之外还可以直接公用内参也能处理这样的情况。