目标检测与 MMDetection
目标检测做了什么?
给定一张图片,目标检测算法给出了前景目标的预测位置与类别,用矩形框框出了所有感兴趣物体,同时预测物体类别。
目标检测算法已在人脸识别、智慧城市、自动驾驶等多个领域落地部署。
目标检测算法的演进
传统方法 DPM → 两阶段方法 Faster R-CNN → 级联方法 Cascade R-CNN → 单阶段检测方法 → Transformer方法
在 COCO 数据集上的推理精度 mAP 由 Faster R-CNN 的 21-34% 到 SwinTrans+HTC 的 57.7%。轻量级模型的推理速度可在 10ms 内。
基础知识
框,边界框
框泛指图像上的矩形框,边界横平竖直
描述一个框需要4个像素值:
方式1:左上右下边界坐标(l,t,r,b)
方式2:中心坐标和框的长宽(x,y,w,h)
边界框通常指紧密包围感兴趣物体的框。
检测任务要求为图中出现的每个物体预测一个边界框。
以下这些概念都指某种框,用在不同的上下文中:
1.区域(Region):框的同义词
2.区域提议(Region Proposal,Proposal)
指算法预测的可能包含物体的框,某种识别能力不强的算法的初步预测结果
3.感兴趣区域(Region of Interest,Rol)
当我们谈论需要进一步检测这个框中是否有物体时,通常称框为感兴趣区域
4.锚框(Anchor Box, Anchor)
图中预设的一系列基准框,类似滑窗,一些检测算法会基于锚框预测边界框
交并比
置信度
置信度(Confidence Score):
模型认可自身预测结果的程度,通常需要为每个框预测一个置信度
大部分算法取分类模型预测物体属于特定类别的概率。部分算法让模型独立于分类单独预测一个置信度。
我们倾向认可置信度高的预测结果。