多模式空间校正器：自我中心场景的深度与法线预测技术

PDF文件

21.99MB | 更新于2025-01-16 | 28 浏览量 | 举报收藏

立即下载

"多模式空间校正器：自我中心场景理解中的视觉表示学习方法" 本文主要探讨了在自我中心场景理解中的视觉表示学习，特别是针对动态前景物体（如手和人）以及因头部运动导致的非规范视点图像。自我中心场景理解是一个具有挑战性的任务，因为它涉及到对大范围头部运动产生的倾斜图像进行处理，以及识别和理解不断变化的前景物体。作者提出了一个多模式空间校正器来应对这些挑战。传统的单模式空间校正器在处理自我中心图像时可能会导致过度透视变形，而多模式空间校正器则通过从多个角度学习，有效地减少了这种变形，增强了视觉表示的一致性。这种方法使得模型能够更准确地理解和预测自我中心图像中的几何信息，如深度和表面法线。为了支持动态前景物体的视觉表示学习，研究人员创建了一个名为EDINA（Egocentric Depth on everyday Indoor Activities）的新数据集。该数据集包含超过50万个同步的RGBD帧和重力方向，旨在提供丰富的自我中心视角下的深度信息，这对于训练模型识别和理解室内活动中动态物体的行为至关重要。实验结果显示，采用多模式空间校正器和EDINA数据集的方法在单视图深度和表面法线估计上表现优越，不仅在EDINA数据集上超越了基线方法，还在其他知名的自我中心数据集，如FirstPerson Hand Action (FPHA) 和EPIC-KITCHENS上展现出优秀的性能。引言部分强调了人类自我中心感知能力与当前计算机视觉系统的差距，并指出在结构化但复杂的动态环境中，自我中心视觉理解的重要性。现有的计算机视觉系统通常处理的是静态、有序的场景图像，而自我中心感知则需要处理更加真实世界的挑战，如头部运动带来的视角变化和动态物体的交互。本文提出的多模式空间校正器和EDINA数据集为自我中心场景理解提供了新的视角，为解决动态环境中的几何预测问题提供了有效工具，对于推动自我中心视觉领域的研究具有重要意义。

2832

通过多模式空间校正实现自我中心场景理解

TienDo1KhiemVuong2HyunSooPark1

1明尼苏达大学2卡内基梅隆大学

图1.我们研究了从单视图自我中心图像中预测几何（深度和表面法线）的问题，其中包括动态物体（如手和人）。我们设计了一种多模式空间

校正器，可以有效处理由头部运动引起的过度倾斜的图像（例如，当进行眼手协调时，近乎90度的俯仰角）。我们的方法在EPIC-KITCHENS

[7]（左）、FPHA[18]（右上）和我们的EDINA（右下）数据集的未见图像上表现出很强的性能。

摘要

在本文中，我们研究了自我中心场景理解的问题，即从自我

中心图像中预测深度和表面法线。自我中心场景理解面临前

所未有的挑战：（1）由于头部运动较大，图像是从非规范

视点（即倾斜图像）拍摄的，现有的几何预测模型不适用；

（2）动态前景物体，包括手，构成了视觉场景的很大一部

分。这些挑战限制了从大型室内数据集（如ScanNet

[6]和NYUv2

[36]）学习的现有模型的性能，这些数据集主要包含静态场

景的直立图像。我们提出了一种多模式空间校正器，将自我

中心图像稳定到一组参考方向，从而实现了一致的视觉表示

学习。与通常会为自我中心图像产生过度透视变形的单模式

空间校正器不同，多模式空间校正器从多个方向学习，可以

减小透视变形的影响。为了学习动态前景物体的视觉表示，

我们提出了一个名为EDINA（EgocentricDepthon

everydayINdoor

Activities）的新数据集，其中包含超过50万个同步的RGBD

帧和重力方向。借助多模式空间校正器和EDINA数据集，我

们提出的方法

在单视图深度和表面法线估计方面，我们的方法不仅在我们

的EDINA数据集上优于基线方法，而且在其他流行的自我中

心数据集上也表现出色，例如FirstPersonHand

Action（FPHA）[18]和EPIC-KITCHENS[7]。

1.引言

我们在结构化但相当复杂、无组织和动态的环境中与周围物

体进行互动，这是由我们强大的自我中心感知能力所实现的

，它有助于我们理解周围的三维场景几何。这种固有的感知

能力与现有的计算机视觉系统形成鲜明对比，后者经过训练

，能够处理由精心控制的相机记录的静态和井然有序的场景

图像。尽管这些经过训练的模型在性能上表现出色，但在预

测观察到非脚本化的日常活动中的自我中心图像的场景几何

时，它们表现出极高的脆弱性，这些活动包括多样化的手-

物体交互，由头部/身体佩戴的摄像头捕捉到。这需要额外

的传感器，如IMU和深度传感器，用于增强/混合现实设备

（例如Hololens和MagicLeap

One），以在我们的日常空间中提供交互和沉浸式体验。在

本文中，我们研究了自我中心三维问题。

下载后可阅读完整内容，剩余9页未读，继续阅读

开通会员，免费下载（低至0.43元/天)

成为会员后, 你将解锁

下载资源随意下

优质VIP博文免费学

优质文库回答免费看

付费资源9折优惠

cpongm

粉丝: 6

多模式空间校正器：自我中心场景的深度与法线预测技术

RTD2660 datasheet

畸变校正技术：机器视觉从理论到实践的详细指南

摄像头标定与校正：视觉识别精准度提升的秘籍

EzCad2图层混合模式与尺寸标注：创造独特视觉效果与精确设计的关键技巧

计算机视觉系统剖析：Ascento双足轮机器人的视觉革命

SLAM-GO-POST-PRO-V2.0多传感器融合处理：应对复杂场景的终极指南

【扬声器系统自动校正技术】：简化设置流程的5大快捷方法

【视觉辅助的算法理解】：《计算方法与实习》习题中的图形解读，让算法一目了然

微型IREX SPLC机器视觉集成攻略：自动化解决方案的视觉技术应用

ABB机器人编程视觉集成应用：J-8ABB的视觉技术深度应用

最新资源