目录
第一部分:简介
项目架构:
数据采集层:数据标注、数据存储
深度模型层:数据预处理、多GPU模型训练
用户层:网页、小程序,获取识别检测结果
图像识别三大任务:
目标识别:只有一个物体,分类,定性目标,确定目标是什么;
目标检测:有多个物体,定位目标,确定目标是什么以及位置;
目标分割:像素级的对前景与背景进行分类,将背景剔除。
目标检测任务描述
1.算法分类
模型训练:加入全连接层,通过softmax进行概率计算,交叉熵损失衡量。
1)两步走的目标检测:先进行区域推荐,而后进行目标分类,如R-CNN、SPP-net、Fast R-CNN、Faster R-CNN。
2)端到端的目标检测:采用一个网络一步到位,如YOLO、SSD。
2.常见指标IoU(Intersection over union,交并比)
bounding box(bbox)----目标标记框
Ground-truth bounding box----图片当中真实标记的框
Predicted bounding box----预测的时候标记的框
LoU即真实框与预测框的交集并集之比----IOU=(A∩B)/(A∪B)
第二部分:R-CNN
一.Overfeat模型
由于目标检测中,一张图片可能有多个物体,所以不适用简单的图片分类。Overfeat模型的思路是,对于输入的一张图片,设置k个大小形状不同的滑动窗口,对于每个滑动窗口,依次从图片的左上角按行按列滑动,得到m