OpenMMLab AI 实战训练营笔记 04

目标检测算法在图片中定位并识别物体,应用广泛,如人脸识别和自动驾驶。从DPM到最新的SwinTrans+HTC,精度显著提升。关键概念包括边界框、区域提议、感兴趣区域和锚框,以及置信度和非极大值抑制在优化预测中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目标检测与 MMDetection

目标检测做了什么?

给定一张图片,目标检测算法给出了前景目标的预测位置与类别,用矩形框框出了所有感兴趣物体,同时预测物体类别。

目标检测算法已在人脸识别、智慧城市、自动驾驶等多个领域落地部署。

目标检测算法的演进

传统方法 DPM → 两阶段方法 Faster R-CNN → 级联方法 Cascade R-CNN → 单阶段检测方法 → Transformer方法
在 COCO 数据集上的推理精度 mAP 由 Faster R-CNN 的 21-34% 到 SwinTrans+HTC 的 57.7%。轻量级模型的推理速度可在 10ms 内。

基础知识

框,边界框

泛指图像上的矩形框,边界横平竖直

描述一个框需要4个像素值:
方式1:左上右下边界坐标(l,t,r,b)
方式2:中心坐标和框的长宽(x,y,w,h)

边界框通常指紧密包围感兴趣物体的框。
检测任务要求为图中出现的每个物体预测一个边界框。

以下这些概念都指某种框,用在不同的上下文中:
1.区域(Region):框的同义词
2.区域提议(Region Proposal,Proposal)
指算法预测的可能包含物体的框,某种识别能力不强的算法的初步预测结果
3.感兴趣区域(Region of Interest,Rol)
当我们谈论需要进一步检测这个框中是否有物体时,通常称框为感兴趣区域
4.锚框(Anchor Box, Anchor)
图中预设的一系列基准框,类似滑窗,一些检测算法会基于锚框预测边界框

交并比

在这里插入图片描述

置信度

置信度(Confidence Score):
模型认可自身预测结果的程度,通常需要为每个框预测一个置信度
大部分算法取分类模型预测物体属于特定类别的概率。部分算法让模型独立于分类单独预测一个置信度。
我们倾向认可置信度高的预测结果。

非极大值抑制

在这里插入图片描述

边界框回归

在这里插入图片描述

边界框编码

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值