论文笔记-深度估计(1)Depth Map Prediction from a Single Image using a Multi-Scale Deep Network

本文介绍了一种使用多尺度深度网络从单个图像预测深度图的方法。作者提出,仅凭几何信息无法准确估计单张图像的深度,因此他们设计了一个由粗到细的深度学习网络,包括全局预测的粗略网络和细化局部信息的精细网络。通过预训练和尺度不变误差函数,网络能够在训练中逐步改进深度估计,该误差函数关注方向一致性而非绝对误差。作者还探讨了如何整合更多几何信息以提高预测准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Depth Map Prediction from a Single Image using a Multi-Scale Deep Network

作者认为以前估计深度的方法大概是基于几何代数、优化求解的方法来获得空间信息,但对于单张图片,仅仅基于几何信息是无法判断它的真实尺度的,因为没有先验信息的话,它的尺度是无法进行估计的。单张图深度估计,以人为例,需要综合考虑线条角度,透视关系,物体大小,图像位置以及环境效果等因素。因此融合其他信息的深度网络有望获得更好的单张图深度预测。

网络

为此作者提出一个有监督的包含两个网络的coarse to fine深度学习网络来进行深度估计:coarse网络估计整张图的全局预测,而另外一个网络来对局部信息进行refine:

这里写图片描述

第一个coarse-scale网络和VGG等分类网络是一致的,卷积层+全连接层,得到的输出作为网络而的输入。它最终的输出大小只有输入的1/4大小。RELU,Dropout,不能缺 ;在ImageNet上pretrain好的model,减少工作量。

第二个fine-scale网络用来做精细化调整,比如目标物体的轮廓。这个网络仅仅包含卷积层,这让人想起了同年后面出来的FCR文章(参看博文列表)。

该网络将原来的图片进行卷积操作得到原图的1/4大小,并和第一个网络的输出接在一起(可能就是直接作为向量接在一起)。

训练时先训练好第一个网络,再将输出作为第二层网络来训练第二层网络。也就是:整个后向传播过程只在各自网络进行。

由于没有用到现在大家通用的deconvolution,最终输入大小为为原图1/2的fine网络的输出大小为原图的1/4,这是本文网络的最终输出。

价值函数

与一般作者会用预测值与真实值的绝对误差(欧式距离)不同,作者提出一个类似余弦误差的概念——

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值