计算机视觉——图像理解简介
图像理解的三个层次
-
一是分类(Classification)
将图像结构化为某一类别的信息,用事先确定好的类别(string)或实例ID来描述图片。
-
二是检测(Detection)
检测关注特定的物体目标,要求同时获得这一目标的类别信息和位置信息。
-
三是分割(Segmentation)
分割包括语义分割(semantic segmentation)和实例分割(instance segmentation)
简单来说,前者不区分属于相同类别的不同实例,而后者区分
相关网络
Faster RCNN [2016]
- 经过R-CNN和Fast RCNN的积淀,Ross B. Girshick在2016年提出了Faster RCNN
- 将CNN引入目标检测的开山之作
- 网络结构如下:
-
Conv layers
- 作为一种CNN网络目标检测方法,Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。</