参考代码:None
介绍
SrroundDepth算法中对使用self-attention做多视图特征聚合,这样一个是计算开销和显存占用比较大,二个每个单独视图需要从众多视图中寻找有用信息会减慢网络收敛速度。对此依据多视图系统中成像特点,这篇文章将当前视图只与左右俩视图(分别对应左右视图的与当前视图相关的一部分)做attention操作,从而极大减少计算和显存开销。节省了这些开销之外就可以尝试增加分辨率、增加多桢输入(从结果上看涨点不明显)这些trick来提升自监督深度估计的性能了。在下图中正好在性能和计算量维度对比文章方法与FSM和SurroundDepth方法:
可以看到这个self-attention操作还是有很大改进空间的,这篇文章中是使用与当前视图相关的左右视图参与到attention计算过程,那么可以进一步将这样的操作替换为deformable attention的操作这样还可以更进一步节省计算量和提升性能表现,这就跟deformable-DETR效果类似。但是需要注意相机曝光同步时刻是否匹配,若是不匹配就需要做额外操作修改来对齐了。
方法设计
其实文章的方法与SurroundDepth方法大体一致,区别在于对self-attention操作做了对应修改,替换成了下图中所示的effi