深度学习小白——物体定位和检测

这篇博客是关于深度学习中的物体定位和检测技术,介绍了从Classification+Localization到R-CNN系列(包括R-CNN、Fast R-CNN、Faster R-CNN)的发展。文章详述了各个方法的工作原理,如定位任务的目标、评价指标,以及RPN网络如何解决region proposal的问题,强调了Faster R-CNN的实时性优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

此篇是看CS231n的课后笔记,方便以后查阅,因为刚开始接触,如果有错误,欢迎指正~


一、 Classification+Localization定位

定位一般是指一张图有一个类别,有单个物体需要去定位

常用数据库:ImageNet localization数据库

对于分类任务:

  • 目标:分出类别
  • 输入:图像
  • 输出:图像类别
  • 评价指标:准确度

对于定位任务:

  • 目标:标出该图中类别物体的位置(矩形框)
  • 输入:图像
  • 输出:bounding box (x,y,w,h) 4个数
  • 评价指标:与所给框的交叉重叠部分

【步骤】:
  1. 训练一个分类网络(AlexNet,VGG...)
  2. 在一个特定位置(conv后或者FC后)重新连接一个Regression head,用于训练框的位置
  3. 训练回归网络,用SGD+L2 Loss,分两种回归:不定类回归(1个box)/ 特定类回归(C个box)
  4. 测试时,把两种heads都加上得到分类标签+定位框



[Sliding Window]——Overfeat网络(ILSVRC 2013定位挑战冠军)

论文:Sermanet et al, “Integrated Recognition, Localization and Detection using Convolutional Networks”, ICLR 2014

主要思想:

  • 用一个滑动窗口在高分辨率的图片上不同位置滑动
  • 将全连接层转换为1*1卷积层,节省计算资源
  • 在不同尺度上将分类器和回归器的预测结果融合,从而得到最终预测结果

滑动窗口
假设输入图像比规定的尺寸大,可设置一个滑动窗口分别滑动图像的左上,下,右上,下四个位置,得到四个分类得分
同样得到四个框

      
实际中,会取各种大小的sliding windows,所以会得到很多类别得分和很多框,通过一种特殊的融合方式,得到最佳结果(此处课上没说,需再看论文)


FC-->1*1 Conv
---->

定位任务结果:


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值