SOTA水平解码器
论文地址:https://ieeexplore.ieee.org/abstract/document/10243139
IEEE Transactions on Circuits and Systems for Video Technology
摘要:
解码器在场景深度恢复中起着重要的作用。然而,以往研究中使用的解码器忽略了多级无损细粒度信息的传播,缺乏自适应捕获局部和全局信息的能力,并且不能对最终输出差异进行充分的全局统计分析。此外,从低分辨率特征空间到高分辨率特征空间的映射过程是一个一对多的问题,可能有多个解决方案。因此,恢复的深度图质量较低。为此,我们提出了一种高质量的解码器(HQDec),其中由所提出的自适应轴向归一化位置嵌入信道注意力采样模块(adaxialnpcas)获得的多级别近无损细粒度信息可以利用所提出的自适应信息交换方案自适应地合并到具有高级语义的低分辨率特征映射中。在HQDec中,我们利用提出的自适应细化模块(AdaRM)并行模拟像素之间的局部和全局依赖关系,并利用提出的视差关注模块从全局角度模拟视差值的分布特征。为了以最大的精度恢复细粒度的高分辨率特征,我们利用像素之间的局部和全局依赖关系约束上采样解空间,自适应地将高频信息融合到由非学习方法生成的高分辨率特征图中。大量的实验表明,与基线结果相比,所提出的每个分量都提高了深度估计结果的质量,并且所提出的方法在KITTI和DDAD数据集上获得了最先进的结果。代码和模型将在HQDec上公开提供。
深度在移动机器人视觉与导航[1]、智能医疗信息技术[2][4]、工业机器人[5]中发挥着至关重要的作用。虽然现有的传统方法[6]-[22]可以取得有竞争力的结果,但这些方法需要昂贵的深度传感器和相当大的劳动才能获得足够大的数据,这些数据被标记为像素级深度信息,甚至需要立体声视频序列[19],[20]进行网络训练。标记深度数据的获取成本很高,并且只能应用于有限的场景。为了减轻这一限制,研究人员最近试图以一种自我监督的方式,从大量容易获取的未标记单目视频中直接推断深度。然而,由于静态场景假设,这些方法的性能受到限制。研究人员主要从目标函数[23]-[37]和网络架构[32]、[34]、[35]、[38]-[46]两方面改进算法的性能。
在这项工作中,我们从网络架构的角度提高了深度图的质量。目前,深度网络的构建主要采用编码器-解码器结构。具体来说,在基于卷积神经网络(CNN)的编码器中,使用朴素下采样(例如,最大池化)来逐步增加特征图的接受域大小,减少计算开销。然后将编码器获得的高级语义特征馈送到解码器以恢复原始分辨率图像的场景深度。现成的模型(例如,残差网络(ResNet)[47],它是专门为图像分类任务设计的)经常被用作编码器来提取高级语义特征。虽然通过降采样降低特征图的分辨率可以实现对图像的高效分类,但是随着降采样操作的进行,会丢失细粒度的信息,不利于进行密集的预测任务。为了弥补这个缺点,通常在具有相同分辨率的编码器和解码器输出的特征映射之间使用跳过连接[48]。此外,最近的[32]、[40]、[49]、[50]等研究在特征之间建立了密集的连接,以增强其网络的特征提取能力,获得丰富的细节。尽管这些方法在相应的任务中取得了良好的性能,但仍然无法利用多层次无损的细粒度信息。[42]利用3D填充块来保留重要的空间细节,但忽略了多层信息交换的好处。
为此,我们提出了一种自适应信息交换方案(AdaIE),该方案将高分辨率特征图中的多级细粒度信息自适应地整合到具有高级别语义的低分辨率特征图中。为了减少所需模型参数的数量并保留更多的细节,我们提出了一种自适应轴向归一化位置嵌入信道注意力采样模块(AdaAxialNPCAS)。该模块具有以下优点:(a)可以保存和传播近乎无损的细粒度信息。(b)将显著性信息自适应融合到得到的细粒度信息中。©它可以学习关键的频道信息,用于随后的注意权重计算。
其次,尽管CNN可以有效地捕获图像中的局部信息,但它缺乏对远程依赖关系建模的能力。最近的研究[12],[15],[16],[34],[35],[44],[45]引入了注意力机制[51],特别是视觉转换器[52]。然而,这些方法不能自适应地对全局和局部信息进行并行建模。为此,我们提出了一种自适应细化模块(AdaRM),该模块旨在(a)高效捕获局部信息并并行建模远程依赖关系,(b)将提取的局部和全局信息自适应融合到原始特征图中。此外,在使用不可逆低通滤波和子采样操作[53],[54]时,在编码过程中会丢失高频信息。从低分辨率特征空间到高分辨率特征空间的映射过程是一个一对多的问题,可以有多个解决方案。为此,我们使用AdaRM自适应插值双线性插值,得到双自适应归一化细化上采样模块(DAdaNRSU),该模块旨在(a)通过利用像素之间的全局和局部依赖关系约束解空间来恢复尽可能多的高频信息,以及(b)将恢复的高频信息自适应融合到从非学习方法获得的高分辨率特征图中。
第三,为了获得视差值,目前大多数方法[25]-[28],[30],[31],[38],[40],[42],[55],[56]直接使用局部二维卷积,然后使用sigmoid函数将解码器输出的特征映射回归到视差值;但是,这种技术不能对输出值执行充分的全局分析。出于对输出视差值进行全局统计分析的动机,我们提出了一个全局视差关注模块(AttDisp),该模块可以从全局角度对视差值的分布特征进行建模。
最后,为了解决自监督单眼方法[25][28],[30],[40],[57]中固有的尺度模糊问题,我们提出了一种自适应尺度对齐策略,通过考虑中值和平均值信息,将获得的估计结果缩放到用光探测和测距(LiDAR)测量的真实情况。