DID-M3D: Decoupling Instance Depth for Monocular 3D Object Detection
摘要
单目3D检测由于其低成本和简单的设置引起了广泛关注。它通过输入一张RGB图像来预测3D空间中的目标框。最具挑战性的任务是实例深度估计,过去的方法通常采用直接估计的方法。然而,本文指出,RGB图像上的实例深度并不直观,因为它由视觉深度线索和实例属性线索耦合而成,使得在网络中难以直接学习。因此,本文提出将实例深度重新表述为实例视觉表面深度(视觉深度)和实例属性深度(属性深度)的组合。视觉深度与物体在图像中的外观和位置相关,而属性深度依赖于物体的固有属性,这些属性不受图像上仿射变换的影响。通过结合不同类型的深度和相关的不确定性,最终获得实例深度。此外,单目3D检测中的数据增强通常由于物理性质而受限,阻碍了性能的提升。基于所提出的实例深度解耦策略,可以缓解这一问题。通过在KITTI上的评估,我们的方法实现了新的最先进的结果,并通过广泛的消融研究验证了方法中每个组件的有效性。代码已在论文中提供的链接中公开。
Keywords: monocular 3D detection, instance depth estimation.
1. 引言
单目三维物体检测是自动驾驶和计算机视觉领域的一个重要课题。它因价格低廉、配置简单而广受欢迎。近年来,该技术得到了快速改进 [6,5,29,37,62,26]。在这项任务中,一个众所周知的挑战在于实例深度估计,这是提高性能的瓶颈,因为深度信息在相机投影过程后就会丢失。
之前的许多研究 [2,12,40] 直接回归实例深度。这种方式没有考虑实例深度本身带来