Unsupervised Learning of Depth and Ego-Motion from Video

该博客探讨了如何从视频序列中无监督地学习单目深度和相机运动。采用端到端的深度学习方法,无需手动标记或相机运动信息。研究中,模型借鉴人类的多次观察能力,通过训练从图像序列中直接估计相机的自我运动。讨论了相关工作,包括从运动恢复结构、基于扭曲的视图合成和无监督视频学习。此外,详述了一种综合监督方法,使用可微分的基于图像的深度渲染器,并提出了克服梯度局部化问题的策略。实验在KITTI数据集上进行了验证。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Unsupervised Learning of Depth and Ego-Motion from Video

  • 目的:用视频序列估计单目深度和相机运动
  • 模型:无监督学习
  • 数据集:KITTI
  • 输入:图像序列(视频)
  • 输出:单目深度和位姿估计
  • 前提:相机内参已知

一、介绍

人类的建模能力来自于对世界的多次观察。通过训练一个观察图像序列的模型来模仿这种能力。采用端到端的方法,允许模型直接从输入像素映射到自运动的估计。

此方法无需手动标记,也无需相机运动信息。

二、相关工作

从运动恢复结构(SFM)

传统工具链对精确图像的依赖可能导致低纹理、复杂几何/光度、薄结构或遮挡等问题。

使用深度学习,如特征匹配、位姿估计、立体图,有克服以上问题的潜力。

基于扭曲的视图合成

几何场景理解的一个重要应用是新视图合成。

目标是从经过训练的 CNN 中提取几何推理能力,来执行基于扭曲的视图合成。

从注册的2D视图学习单视图3D

大多数技术集中在推断深度图作为场景几何输出,最近的研究表明,通过利用场景规律性,甚至可以在无3D标签的情况下学习3D推理。

从视频中进行无监督/自监督学习

从视频中学习通用视觉特征,稍后可用于其他视觉任务,如对象检测和语义分割。

Vijayanarasimhan 等提出从视频中联合训练深度、相机运动和场景运动,增加了合并监督的能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值