multi-mono-sf:自监督多帧单目场景流估计

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

ae97b58aa715fb6f0691fbf247994bc5.png

标题:Self-Supervised Multi-Frame Monocular Scene Flow

作者:Junhwa Hur, Stefan Roth

机构:Department of Computer Science, TU Darmstadt  hessian.AI

来源:  CVPR, 2020

编译:GUOCHENG

审核: zhuhu

这是泡泡图灵智库推送的第672篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

5c101ec993ae54ee2ebb03421646e588.png

大家好,今天为大家带来的文章是 

Self-Supervised Multi-Frame Monocular Scene Flow

由于单目场景流估计只需要单目相机,对设备的要求低,因此最近受到广泛关注,之前研究成果在精度以及实时性方面仍然有待提升。本文提出一种基于自监督的多帧单目场景流估计网络,在保证实时性的同时提高了估计的准确性。

代码地址: https://github.com/visinf/multi-mono-sf

612194511add75a3223399e284ec5ae6.png

主要工作与贡献

1def746b0c17628d8abba20efc7e7736.png

  1. 将原有的两帧输入的双帧基线与分割解码器模型改成三帧输入,增加了一个卷积LSTM连接网络。

  2. 用occlusion-aware census loss提高准确性

  3. 采用梯度分离策略提高训练稳定性

d13068f01b70b6047757c0b91a0c105a.png

算法流程

cd66ed48cbd3f26e02a5fc72bc9996e0.png

该算法通过N个连续帧单目图像,估计参考帧每一个像素点的三维坐标以及下一帧图像的每一个3D点的3D场景流

2.1 Refined backbone architecture

网络架构基于Junhwa  Hur 在Self-supervised  monocularscene flow estimation中提出的两帧融合网络,Hur所提出的方法采用PWC-Net并且可以达到实时性。在该网络中包括特征金字塔、cost volume,并利用金字塔联合解码器估计残差流、视差。在该主干网络基础上进行改进使其适用于单目场景流估计。

在实验中,我们发现cost volume normalization以及较低层级的金字塔网络可以提升网络效果。我们发现基于扩展卷级的context network会影响自监督训练,因此采用一个新的解码器替代context network,对于每个任务从最后一层逐渐将解码器分成两个单独的解码器,我们通过实验比较预测结果,最后发现将最后三层网络单独分开可以得到非常好的效果。

2a7ef6c4336b23db54255e89ef7d2884.png

图1 编码器配置

0f10324f739f96574335105796cdda67.png

图2.测试不同编码器性能实验

2.2  Multi-frame estimation

首先在每个时间步使用时间上连续的三帧图像,图3展示了多帧估计的单层特征金字塔网络结构。

ab29f9c17368e64717355224ab0d1faf.png

图3.网络架构

为了充分利用时间连续性条件,在编码器中用采用了卷积LSTM,可以跨时间步传递隐藏状态,利用先前时间步估计值。为了保证前后帧卷积LSTM cell state 以及hidden state的坐标一致性,我们利用估计的场景流和视差采用forward-warp转换上一帧cell state 以及hidden state坐标到当前帧。并且利用有效性mask根据对应像素特征向量的相似性分数,过滤不匹配像素点。

a6b89ff7ebafc70539540e937a8641c4.png

图4 forward-warp公式

b2e8b1bd79a633f3820bcf3906d94277.png

图5.  基于convolutional LSTM with forward warping的解码器

2.3 Self-supervised loss

给定估计出的多帧场景流和视差估计,建立双向自监督损失函数。并采用了Huret等人[23]的自监督损失,包括一个视图合成损失和一个3D重建损失,引导视差和场景流输出与给定的输入图像一致。总自监督损失是视差损失Ld和场景流Lsf损失的加权和。

3ef4595b2290acade074a80d57be1da1.png

4bcb7664f8a3e9fadf920d3c407fdac2.png

图6.  在时间相邻估计之间应用自监督损失。

相较于[23]提出了一个新的occlusion-aware census loss去惩罚视图合成的光度差异,它只计算可见像素的汉明距离。

0e32b1707ba3455c4734be1d9603a9fb.png

图6.   Occlusion-aware census transform

ece83124f49b2a62836f41f569f7702c.png

7e6c7b06a46e8cded5efe9ac97543e64.png

图7.   Occlusion-aware census transform公式

3.5.  Improving the training stability

取代上下文网络提高了训练的稳定性。然而,我们发现集成ConvLSTM模块[59]仍然会导致训练的不稳定性,从而在训练的早期阶段产生差异预测。

为了解决这个问题,我们建议在训练的早期阶段分离场景流损失和时差损失,以便每个解码器首先关注自己的任务。我们推测,从场景流损失反向传播到视差解码器的梯度强烈影响视差估计。为了防止场景流占据主导地位,我们分离了梯度,但仅限于训练计划的前两个阶段。

72214fb2fdb0a0c8bfb2e2efc3713e23.png

图8. 分离场景流丢失和视差解码之间的梯度

e6efc2b9a591268c2961f3d749e8fbbe.png

实验结果

49b7a39bc4769fb9293ff6b47cef29f0.png

1.实施细节

为了与最密切相关的前期工作[23]进行公平比较,我们使用相同的数据集KITTI和相同的训练协议,假设固定的立体基线。我们使用KITTI Spliti[13],将32个场景总共分割为25个场景进行训练,剩余7个场景进行验证。与[23]不同,我们在整个场景级别划分训练集验证集,以便为我们的多帧设置利用更多连续帧,并完全重新移动两个分割之间可能的重叠。然后,使用提供的场景流地面真实值评估我们的模型。KITTI Spliti和KITTI场景流训练不重叠。在我们对Kitti Split进行自我监督训练后,我们选择以semi-supervised的方式对我们的模型进行微调,并与以前最先进的单目场景流方法进行比较[7,73]。

鉴于我们使用[23]的网络作为基础,我们使用相同的增强方案和训练配置(例如,学习率、培训计划、优化器等)。为了确保训练的稳定性,我们在前2个epoch分离场景流损失和视差解码器之间的梯度。

2.估计结果

633d9621063e1f77a4d46f884382854f.png

表1.多帧估计的消融研究

47775910ce63a8479968cf68538f00c6.png

表2. occlusion-aware census transform消融研究

af36f20273a10692ecd37b97436bf563.png

表3. KITTI 2015场景流评估

48c2b3975b8a913f4bc70cf1cfae5453.png

表4. KITTI 2015场景流评估

点击阅读原文, 即可获取本文下载链接。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

abf42ebac5650b2ef5072102f50d5f32.png

▲长按加微信群或投稿

a1cca76d6f8aca29bde82c6259302723.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定orb-slam3知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

7d2d878d6e30b5bb107ed295b67abc56.png

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  42899aa422b01626060fa4b89678ca76.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值