文章目录
前言
初次接触3D目标检测领域,3D目标检测旨在预测3D空间中关键目标的位置、大小和类别,与仅在图像上生成2D边界框并忽略目标的实际距离信息的2D目标检测相比,3D目标检测侧重于对真实世界3D坐标系中目标的定位和识别。
3D目标检测通常包括基于LiDAR、基于相机和多模态检测方法,涉及到相关的深度学习模型,如:
点云处理模型:如PointNet、PointNet++、VoteNet等,这些模型专为处理无序点云数据设计。
图像处理模型:如果使用RGB图像或RGB-D图像作为输入,需要了解图像处理网络,如Faster R-CNN、YOLO系列、Mask R-CNN等。
多模态融合:结合图像和点云数据可以提高检测性能,需要掌握如何融合不同模态信息的方法。
在进行模型训练时,需要用到点云、图像、标签数据、相机参数等。
点云数据:通常来自LiDAR传感器,包含场景中每个点的空间坐标(x, y, z),有时还包括强度、颜色等属性。
图像数据:RGB图像或RGB-D图像,用于提供颜色和深度信息。
标签数据:每帧数据对应的3D标注,包括目标的类别、中心坐标、尺寸(长宽高)和姿态(旋转角)等。
相机参数:内参K、畸变系数D、外参(旋转R和平移T),用于将点云或图像数据转换到统一的坐标系中。
数据集:如KITTI、NuScenes、Waymo Open Dataset等,这些数据集通常包含丰富的3D标注信息,适用于训练和评估3D目标检测模型。
其中涉及到“3D几何与计算机视觉”相关知识学习,如:
立体视觉:理解立体相机工作原理,如何从立体图像中恢复深度信息。
多视图几何:利用多视角图像进行3D重建和目标检测。
相机标定:掌握内外参数校准,如相机内参K、畸变系数D、旋转矩阵R和投影矩阵P等。
本文为学习过程中记录的“相机标定”的相关参数内容,也供感兴趣者学习。
一、什么是相机标定?
图像测量过程以及机器视觉应用中,为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系,必须建立摄像机成像的几何模型,这些几何模型参数就是相机参数。在大多数条件下这些参数必须通过实验与计算才能得到,这个求解参数的过程就称之为相机标定。
相机标定(Camera calibration)简单来说是从世界坐标系换到图像坐标系的过程,也就是求最终的投影矩阵的过程。相机标定通常涉及使用已知的物体或模式来测量相机的成像特性和位置关系,从而估计相机的内部参数和外部参数。
基本的坐标系包括:世界坐标系;相机