论文:RCNN

本文详细介绍了R-CNN(Rich Convolutional Networks)在目标检测和语义分割中的应用。通过选择性搜索获取候选区域,利用AlexNet提取特征向量,并通过SVM进行分类和边界框调整。在测试阶段,对每个候选框提取固定长度的特征向量,最终通过非极大值抑制确定最佳检测结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Rich feature hierarchies for accurate object detection and semantic segmentation

论文:https://arxiv.org/abs/1311.2524

更多 目标检测


架构

R-CNN的流程:

  1. 提取2000个候选框
  2. 从每个候选框提取特征向量
  3. 使用SVM分类器对每个特征向量进行分类
  4. 使用回归其修正候选框

在这里插入图片描述


模块设计

候选框。虽然R-CNN对于特定候选区域方法是未知的,但作者使用选择性搜索来提取候选区域。

特征提取。由于AlexNet 的输入是固定的 227 × 227 227\times 227 227×227,候选区域使用 AlexNet 提取一个4096维的特征向量,因此,需要将候选区域大小重置为 227 × 227 227\times 227 227×227。在重置前,将候选区域膨胀并加框。

在这里插入图片描述


在测试时,我们对测试图像进行选择性搜索,提取出大约2000个候选框。我们重置每个候选框,使用CNN对每个候选框提取特征向量(固定长度4096),2000个4096为特征矩阵(2000 x 4096),每个类别使用一个SVM对特征向量进行分类,得到类别概率,类别数为N,类别概率矩阵为 2000 x N,特征矩阵到概率矩阵:
[ ] 2000 × 4096 [ ] 4096 × N = [ ] 2000 × N \begin{bmatrix} &&&&& \\ &\end{bmatrix}_{2000\times 4096}\begin{bmatrix} &&\\\\ \\&\end{bmatrix}_{4096\times N}=\begin{bmatrix} & \\ &\end{bmatrix}_{2000\times N} []2000×40964096×N=[]2000×N
4096 × N 4096 \times N 4096×N为权重矩阵。

概率矩阵的行为候选框,列为类别,对概率矩阵应用非极大值抑制(对每个类别独立)剔除重叠的候选框,如果它有一个交集和并集比(IoU)重叠,如果得分最高的候选框IoU大于学习阈值,则选择候选框。


对象的类别分类器。考虑训练一个二值分类器来检测汽车。很明显,一个紧紧包围着一辆汽车的图像区域应该是一个正样本。同样地,与汽车无关的背景区域显然是一个负样本。不太清楚的是,如何给部分与汽车重叠的区域贴上标签。我们用 IoU重叠阈值 解决了这个问题,低于这个阈值的区域被定义为阴性。重叠阈值0.3是通过网格搜索{0,0.1,…,0.5}。我们发现仔细选择这个阈值很重要。将其设置为0.5,如在[39]中,将mAP减少5点。同样地,将其设置为0将减少4点的mAP。正样本被简单地定义为每个类的真实边界框。一旦特征被提取和训练标签被应用,我们优化每个类一个线性支持向量机。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值