SSD目标检测

uBeetles

已于 2023-04-27 10:45:35 修改

阅读量1k

点赞数

CC 4.0 BY-SA版权

文章标签：深度学习人工智能

于 2023-04-26 14:38:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45926473/article/details/130385510

文章讲述了在目标检测任务中，数据集的处理方式，特别是锚框（boundingbox）的生成与标注，以及SSD（SingleShotMultiBoxDetector）模型的结构。SSD模型通过多层特征图检测不同大小的物体，每个特征图像素点处生成多个锚框，并预测其类别和偏移量。损失函数采用了交叉熵和L1范数损失。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据集以及锚框的处理

数据集：

图像：（batch_size , channel , height , width）

bounding box: （batch_size , m , 5）

m: 图像中可能出现的最多边界框的数目

5：第一个数据为边界框对应的种类，对于少于m个边界框的图像，为了保持数据的统一，需要填充非法边界框，此时将其标为-1，并在后面计算中舍弃。剩余四个数据为边界框的左上角和右下角坐标。

在训练数据中标注锚框：

在训练集中，我们将每个锚框视为一个训练样本。

首先，在图片中使用不同的方法生成大量锚框。接着使用数据集中的真实边界框与锚框的交并比来为每一个锚框标记类别和偏移量。

SSD模型

模型结构：

首先，使用基本网络块从图像中抽取特征，再逐步将其使用卷积和池化将特征图宽高减半，最终使用全局最大池将高度和宽度都降到1。

锚框构造：

我们对每一个特征图的每一个像素生成不同宽高比的锚框。当特征图尺寸越小，映射到原图的锚框越大，这样我们可以搜素不同大小的物体。
diyigetup

请添加图片描述

锚框的种类和偏移量预测：

对于种类和偏移量的预测使用不同通道来表示：

具体来说对于一个2x2的特征图假设每一个像素生成3个锚框，对于这个特征图一共有12个锚框。假设我们一共要预测3个种类，我们使用卷积生成 12x(3+1)（+1是指将锚框标注为背景）个通道的2x2结果。例如第一个通道的第一个像素表示为特征图第一个像素生成的第一个锚框预测为第一个种类的概率。

相同的我们对偏移量的预测一共生成12x4个通道来表示预测结果。

最终网络如下所示：

请添加图片描述

我们使用交叉熵损失函数来对每一个锚框的预测种类和真实值求loss，对于每一个锚框的偏移量使用L1范数损失来求其loss。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。