文章目录
Unsupervised Learning of Depth and Ego-Motion from Video
- 目的:用视频序列估计单目深度和相机运动
- 模型:无监督学习
- 数据集:KITTI
- 输入:图像序列(视频)
- 输出:单目深度和位姿估计
- 前提:相机内参已知
一、介绍
人类的建模能力来自于对世界的多次观察。通过训练一个观察图像序列的模型来模仿这种能力。采用端到端的方法,允许模型直接从输入像素映射到自运动的估计。
此方法无需手动标记,也无需相机运动信息。
二、相关工作
从运动恢复结构(SFM)
传统工具链对精确图像的依赖可能导致低纹理、复杂几何/光度、薄结构或遮挡等问题。
使用深度学习,如特征匹配、位姿估计、立体图,有克服以上问题的潜力。
基于扭曲的视图合成
几何场景理解的一个重要应用是新视图合成。
目标是从经过训练的 CNN 中提取几何推理能力,来执行基于扭曲的视图合成。
从注册的2D视图学习单视图3D
大多数技术集中在推断深度图作为场景几何输出,最近的研究表明,通过利用场景规律性,甚至可以在无3D标签的情况下学习3D推理。
从视频中进行无监督/自监督学习
从视频中学习通用视觉特征,稍后可用于其他视觉任务,如对象检测和语义分割。
Vijayanarasimhan 等提出从视频中联合训练深度、相机运动和场景运动,增加了合并监督的能力。