file-type

多模式空间校正器:自我中心场景的深度与法线预测技术

PDF文件

21.99MB | 更新于2025-01-16 | 28 浏览量 | 0 下载量 举报 收藏
download 立即下载
"多模式空间校正器:自我中心场景理解中的视觉表示学习方法" 本文主要探讨了在自我中心场景理解中的视觉表示学习,特别是针对动态前景物体(如手和人)以及因头部运动导致的非规范视点图像。自我中心场景理解是一个具有挑战性的任务,因为它涉及到对大范围头部运动产生的倾斜图像进行处理,以及识别和理解不断变化的前景物体。 作者提出了一个多模式空间校正器来应对这些挑战。传统的单模式空间校正器在处理自我中心图像时可能会导致过度透视变形,而多模式空间校正器则通过从多个角度学习,有效地减少了这种变形,增强了视觉表示的一致性。这种方法使得模型能够更准确地理解和预测自我中心图像中的几何信息,如深度和表面法线。 为了支持动态前景物体的视觉表示学习,研究人员创建了一个名为EDINA(Egocentric Depth on everyday Indoor Activities)的新数据集。该数据集包含超过50万个同步的RGBD帧和重力方向,旨在提供丰富的自我中心视角下的深度信息,这对于训练模型识别和理解室内活动中动态物体的行为至关重要。 实验结果显示,采用多模式空间校正器和EDINA数据集的方法在单视图深度和表面法线估计上表现优越,不仅在EDINA数据集上超越了基线方法,还在其他知名的自我中心数据集,如FirstPerson Hand Action (FPHA) 和EPIC-KITCHENS上展现出优秀的性能。 引言部分强调了人类自我中心感知能力与当前计算机视觉系统的差距,并指出在结构化但复杂的动态环境中,自我中心视觉理解的重要性。现有的计算机视觉系统通常处理的是静态、有序的场景图像,而自我中心感知则需要处理更加真实世界的挑战,如头部运动带来的视角变化和动态物体的交互。 本文提出的多模式空间校正器和EDINA数据集为自我中心场景理解提供了新的视角,为解决动态环境中的几何预测问题提供了有效工具,对于推动自我中心视觉领域的研究具有重要意义。

相关推荐