SSD与YOLO对比-CSDN博客

目标检测近年来已经取得了很重要的进展，主流的算法主要分为两个类型：（1）two-stage方法，如R-CNN系算法，其主要思路是先通过启发式方法（selective search）或者CNN网络（RPN)产生一系列稀疏的候选框，然后对这些候选框进行分类与回归，two-stage方法的优势是准确度高；（2）one-stage方法，如Yolo和SSD，其主要思路是均匀地在图片的不同位置进行密集抽样，抽样时可以采用不同尺度和长宽比，然后利用CNN提取特征后直接进行分类与回归，整个过程只需要一步，所以其优势是速度快，但是均匀的密集采样的一个重要缺点是训练比较困难，这主要是因为正样本与负样本（背景）极其不均衡

其英文全名是Single Shot MultiBox Detector，名字取得不错，Single shot指明了SSD算法属于one-stage方法，MultiBox指明了SSD是多框预测。

1.相比Yolo，SSD采用CNN来直接进行检测，而不是像Yolo那样在全连接层之后做检测。

2.SSD提取了不同尺度的特征图来做检测，大尺度特征图（较靠前的特征图）可以用来检测小物体，而小尺度特征图（较靠后的特征图）用来检测大物体；

3.SSD采用了不同尺度和长宽比的先验框（Prior boxes, Default boxes，在Faster R-CNN中叫做锚，Anchors）

有人说SSD相当于YOLO（直接回归bounding boxes coordinates和all C class probabilities） + RPN的anchor（每个feature map用一个小窗口扫描，对每个扫描位置生成k个default的bounding boxes） + multi-scale的prediction。

SSD采用VGG16作为基础模型，然后在VGG16的基础上新增了卷积层来获得更多的特征图以用于检测。SSD的网络结构如图5所示。上面是SSD模型，下面是Yolo模型，可以明显看到SSD利用了多尺度的特征图做检测。模型的输入图片大小是 $300\times300$ （还可以是 $512\times512$ ，其与前者网络结构没有差别，只是最后新增一个卷积层，本文不再讨论）。