[1]罗建坤.基于深度学习的包裹检测追踪计数系统的研究设计[D].华南理工大学,2020.DOI:10.27151/d.cnki.ghnlu.2020.001129.
文章目录
1、Background and Motivation
设计出智能高效的包裹检测追踪计数系统对分拣仓库的智能化管理具有重要意义。
已有的包裹追踪检测系统有基于 RFID 技术和基于激光线扫描的包裹追踪系统,这两种系统都存在明显的缺陷
RFID(Radio Frequency Identification)技术,即射频识别技术,是一种通过无线电信号自动识别目标对象并获取相关数据的非接触式自动识别技术。它利用射频信号及其空间耦合、传输特性,实现对静止或移动物品的自动识别,具有识别速度快、准确性高、环境适应性强等优点。
RFID 技术的工作原理
RFID 技术的分类
RFID 技术面临的挑战
基于线激光扫描
为此本文设计了一个运用机器视觉技术和智能化技术实施对不同类型的包裹进行追踪检测计数系统方案。
2、Related Work
(1)目标检测
-
基于背景建模的方法
-
基于目标建模的方法
关键是实现特征表达(手工、深度学习)的高效和准确性以及构建合适的分类器(基于逻辑分析算法分类器、基于感知机算法的分类器、基于感知机算法的分类器、基于支持向量机的分类器)
(2)目标追踪
- 传统经典跟踪方法(2012 年以前)
- 它又分为两大类生成类方法和判别类方法
- 生成类方法中具有代表的有 Kalman 滤波法,Camshift 跟踪法,光流跟踪法等,Kalman 滤波法是基于状态预测,Cameshift 跟踪法是基于像素颜色特征,光流跟踪法是基于 Harris 角点特征,这些方法速度较慢。
- 判别类方法的代表是 TLD(Tracking learning and detection),
- 判别类方法与生成类方法的区别是加入了分类器,分类器采用机器学习训练得到,区分前景和背景。
- 相关滤波类方法
- MOSSE(Minimum Output Sum of Squared Error fiter),DSST(Discriminative Scale Space Tracker)等
- 相关滤波类方法的核心思想是训练一个滤波器模板,该滤波器与图像的特征值进行相关性运算,只有与跟踪区域的运算响应结果最大,由响应的最大位置可以跟踪目标中心位置,然后利用预测出来的位置结果更新滤波器的参数,进行下一次预测。
- 深度学习类方法
- D&T( Detect and Track)
3、Advantages / Contributions
-
设计了基于深度学习的包裹检测追踪计数系统的硬件方案和软件方案
-
对 YOLOv3 模型改进方法进行分析和研究,更改模型结构来增加模型的检测准确度
-
实现了基于卡尔曼滤波和 DSST 相关滤波的目标追踪改进方案
-
详细介绍了本文系统的界面设计与界面实现,设计了方便操作和扩展的人机交互界面
4、Method
4.1、包裹检测追踪系统的总体方案设计
4.2、深度学习目标检测研究
yolov1
预测的 B 个 bounding box(矩形框)框住的都是同一个物体
yolov2
YOLOv2 改进的地方:
- 在主体特征提取网络上采用了 Darknet-19。
- 所有卷积层添加批量规范化(Batch Normalization,BN),从而可以去掉 dropout,不会产生过拟合。
- 不使用 YOLOv1 的全连接层,另外新增转移层连接高低分辨率的特征图。
- 使用先验框(anchor boxes)来预测矩形框,先验框是由聚类方法得到。
yolov3
-
网络结构升级:YOLOv3采用了Darknet-53作为其骨干网络,该网络比YOLOv2中的Darknet-19更深,拥有53层卷积层。Darknet-53通过使用残差连接和深度可分离卷积来增加网络的深度,而不显著增加计算成本。这种改进使得YOLOv3能够学习到更复杂的特征表示,从而提高检测性能。
-
多尺度预测:YOLOv3引入了特征金字塔网络(FPN)进行多尺度预测。它在三个不同尺度的特征图(13×13、26×26、52×52)上进行预测,分别对应于大、中、小三种尺寸的物体。这种多尺度预测策略显著提高了模型对各种尺寸物体的检测能力,特别是小物体的检测精度。
-
更丰富的锚点设计:YOLOv3引入了三种不同尺度的锚点框,总共9个锚点框,分配到三个不同的检测层上。相比之下,YOLOv2只使用了5个锚点框。这种更丰富的锚点设计使得YOLOv3能够更好地匹配训练数据中的物体尺寸,提高检测的准确性和鲁棒性。
-
边界框损失优化:YOLOv3对边界框损失进行了调整,使其更加关注于预测边界框的准确性。这包括对边界框坐标的损失函数进行了修改,以减少对小物体的检测误差。
-
数据增强和训练策略:YOLOv3引入了更多的数据增强技术,如随机翻转、随机裁剪和色彩抖动等,这些技术有助于模型泛化到各种不同的场景和光照条件下。同时,YOLOv3使用了更大的批量大小和更长的训练周期,这有助于模型更好地收敛。
-
分类方法改进:YOLOv3采用了独立的Sigmoid分类器,支持多标签分类任务。相比之下,YOLOv2在对象分类时使用了softmax函数,这在某些存在类别重叠的数据集中可能不是最优选择。
-
损失函数改进:YOLOv3采用了CIOU(Complete IoU)损失函数来替代MSE损失函数,进一步优化了目标框的回归精度。
作者基于 YOLOv3 模型改进
YOLOv3 加入 SPP 模块
YOLOv3-SPP3 模型实现稀疏化和剪枝
典型增量式模型剪枝的主要四个迭代步骤:
(1)评估预先训练的深度学习模型中每个组成部分的重要性;
(2)删除对于模型检测推理不重要的组成部分;
(3)微调修剪后的模型,以弥补暂时性能的下降;
(4)对当前微调后的模型进行评估,确定修建后的模型是否适合部署。
通道剪枝
作者的方法
(1)YOLOv3-SPP3 模型实现稀疏化
通道级稀疏化
通过 BN 的
α
\alpha
α 参数来判断通道的重要性
(2)YOLOv3-SPP3 模型实现剪枝
基于稀疏性的判断,用层剪枝和通道剪枝结合,剪掉不重要的通道和层,降低深度和宽度
包裹数据集
YOLOv3 中加入 3 个 SPP 模块的模型记作 YOLOv3-SPP3
选取稀疏最好的模型后进行剪枝压缩,然后对比压缩复杂模型得到的模型与原本网络结构精简的模型之间的效果,结果表明压缩复杂模型得到的模型在识别精度上面有较大优势,可以适用于系统的硬件计算能力小的应用场景
4.3、运动目标跟踪方法研究
对每个追踪的包裹都建立一个追踪器
4.4、交互界面设计与系统测试
5、Conclusion(own) / Future work
- 基于 yolov3 改进,yolov3 加了 3 个 spp
- 根据 BN 来判断通道稀疏性,砍通道+深度
- 检测加传统方法跟踪
更多论文解读,请参考 【Paper Reading】