本篇论文是目标检测的开山之作,之后的大部分文章都是基于本篇论文进行修改和优化得到的产物。
之前的目标检测算法是穷举搜索(ExhaustiveSearch):使用一个窗口在图片上进行滑动,改变窗口的大小,继续扫描整张图像。通过寻找响应值最高的那个位置作为预测的目标。而本文是首先从图像中提取可能是物体的区域,然后对这些区域进行判断。这样的做的优点是过滤掉了一些无用的box ,节省了时间。
主要流程:
1. 对一张图片生成1k-2k个候选区域使用方法:selective research
2. 对每个候选区,使用CNN进行特征提取,使用分类器进行分类
3. 使用回归进行微小调整,使候选框的位置更为精确
一.Selective research
在图像中,同一个物体在尺度上有相似性,如颜色、纹理、尺度相似性等。本方法利用同一物体尺度范围的相似性,不断合并达到预定threshhold的相邻像素点
输入:RGB三通道的图片
输出:物体位置的可能结果L
- 使用Efficient Graph-Based Image Segmentation的方法获得n个初始分割区域。
- 初始化相似度集合S = 0