Dyna-DepthFormer:Multi-frame Transformer for Self-Supervised Depth Estimation in Dynamic Scene

参考代码:None

在自监督深度估计中特征构建、运动预测对性能影响比较大。特征构建就是高效从图像数据中抽取有效特征,从而使得深度估计结果更准确。而运动估计除了需要估计出自身系统相机系统位姿变化之外,还应该估计出场景中的运动目标这样就可以减少对应区域像素对自监督深度估计的影响。

深度估计网络:
对于图像特征抽取上文章引入了transformer模块,首先利用帧间关联(运动网络估计出的pose信息)使用deformable attention算子优化当前帧的表达,这里可以看作当前帧特征(query)与相邻帧特征(key,val)做cross-attention。在得到帧间信息交互结果之后会经过也有deformable attention构建的self-attention模块,用于增强特征内部信息表达。最后就是接上一个解码器用于预测深度图了,它的结构如下:
在这里插入图片描述

特征的优化模块还是有用的,只不过不是那么立竿见影:
在这里插入图片描述

运动估计网络:
在MonoDepth系列的经典网络中运动估计网络主要负责估计帧间的pose信息,这就导致对场景中的运动目标就没办法处理了,也就导致该种类型网络在运动目标深度的时候会出现“黑洞”的情况。在这篇文章中使用迭代的方式去估计场景中目标的运动变化 T r e s ∈ R 3 ∗ H ∗ W T_{res}\in R^{3*H*W} TresR3HW,这里只估计目标的平移分量,对于旋转分量文章将其看作接近0的小值,不在网络的预测范围中。那么整体上运动信息估计部分的结构如下
在这里插入图片描述

其实在上图中还没绘制出 T r e s T_{res} Tres迭代优化部分的网络 M ψ M_{\psi} Mψ,这个网络的输入是target图像和target图像到source图像的变换,首先对于帧间使用运动信息和深度信息构成的图像warp过程描述为:
I s → t = I s ⟨ p r o j ( D t , { R t → s , t t → s + T r e s } , K ) ⟩ I_{s\rightarrow t}=I_s\langle proj(D_t,\{R_{t\rightarrow s},t_{t\rightarrow s}+T_{res}\},K)\rangle Is<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值