论文笔记——Dense Visual SLAM for RGB-D Cameras
文章摘要
本文提出了一种RGB-D相机的密集视觉SLAM方法,使光度和深度误差在所有像素上最小化。与稀疏的、基于特征的方法相比,这使我们能够更好地利用图像数据中的可用信息,从而获得更高的位姿精度。此外,本文提出了一种基于熵的相似性度量用于关键帧选择和环闭包检测。通过在公开的基准数据集上对此方法进行广泛的评估,发现它在低纹理和低结构的场景中都有很好的表现,且产生了一个显著的更低的轨迹误差。
背景
许多机器人技术应用,如导航和制图要求精确和漂移自由姿态估计的移动相机,都偏好基于视觉特征的方法,并结合束调整或姿态图优化。这样在选择相关关键点的过程中会丢弃大量的获取图像数据。
因此,本文的目标是开发一种密集SLAM方法以便更好地利用传感器获取的可用数据,保证实时运行和有效消除漂移,并通过全局地图优化来修正累积误差。如图1所示,我们针对RGB-D相机提出了一种密集SLAM方法,该方法使用关键帧和基于熵的闭环检测来消除漂移。
Fig. 1:the groundtruth, frame-to-keyframe odometry, and the optimized trajectory for the fr3/office dataset. |
---|
本文提出的视觉SLAM系统,它结合了基于光度和几何误差最小化的稠密视觉测程法和位姿SLAM。通过同时估计一致的地图,然后根据消除漂移的一致模型对摄像机进行定位。获取关键帧并对映射进行优化,不需要用户交互。如图2:
Fig. 2:the camera motion g ∗ g* g∗ between two RGB-D images by minimizing photometric and the geometric error |
---|
密集的视觉里程计
本文的目标是仅从它的图像流来估计相机的运动,即在给定连续两个时间步长的RGB-D图计算相机的刚体运动 g g g。
利用给定场景中像素的测量强度应该是相同的这一原理,即 L 1 ( x ) = L 2 ( x ′ ) L_1(x)=L_2(x^{'}) L1(x)=L2(x′),通过最大化两幅图像之间的一致性来寻找相机的运动。
对于深度测量,理想情况下,预测的深度测量和实际测量是相等的。因此,运动可以估计最小的差距之间的预测和实际深度测量。
A.摄像机模型
三维点在齐次坐标系中定义为 P = < X , Y , Z , 1 > T P=<X,Y,Z,1>^T P=<X,Y,Z,1>T。我们重建一个点的像素坐标 X = < x , y > T X=<x,y>^T X=<x,y>T和相应的深度测量 Z = Z ( x ) Z = Z (x) Z=