YOLOV1和YOLOV2的区别与改进,对比学习

YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法,YOLO-V1将检测问题转化为回归问题,通过一个CNN实现。它速度快但存在重叠物体检测困难和小物体识别不准的问题。YOLO-V2引入了BatchNormalization,增大了分辨率,采用了DarkNet结构和聚类提取的先验框(anchorboxes),并实现了多尺度检测,提升了性能和准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

YOLO-V1
  1. 经典的one-stage方法

  2. You Only Look Once,名字就已经说明了一切

  3. 把检测问题转化成回归问题,一个CNN就搞定了

  4. 可以对视频进行实时监测,应用领域非常广

损失函数

 

B: 经验框的个数

S*S:网格大小

对这个物体负责,则是经验框与检测物体真实框IOU最大的经验框对这个物体负责

缺点

每个cell只预测一个类别,重叠的物体无法检测

多标签不好预测

小物体难预测,因为检验框只有两

优点

快速,简单

YOLO-V2

Batch Normalization
  1. V2版本舍弃了Dropout,卷积后全部加入Batch Normalization

  2. 网络的每一层的输入都做了归一化,收敛相对更容易

  3. 经过Batch Normalization处理后的网络会提升2%的mAP

  4. 从现在的角度来看,Batch Normalization已经成了网络的必备处理

更大的分辨率
  1. V1训练时用的是224*224,测试时使用448 * 448

  2. 可能导致模型水土不服,V2训练是额外又进行了10 次448 * 448 的微调

  3. 使用高分辨分类器后,YOOV2的mAP提升了约4%

网路结构
  1. 采用DarkNet结构,实际输入微416 * 416

  2. 没有FC层,5次降采样,每次输出图像大小减半。因为 FC 参数较多,计算量大,容易过拟合

  3. 1 * 1卷积节省了很多参数

聚类提取先验框
  1. faster- rcnn系列选择的先验框比例都是常规的,按照长宽固定比给定(1:1, 1:2, 2:1),但是不一定完全适合数据集。

  2. yolov使用K-Means聚类提取先验框,其中K=5。

  3. 引入anchor boxes,使得预测的box数量更多

  4. K - Means聚类中的 距离:

    d(box,centroids) = 1 -IOU(box, centroids)

  5. v2中并没有直接使用偏移量,而是选择相对grid cell的偏移量,偏移量的计算如下图:

 

Fine-Grained Features
  1. 最后一层感受也太大了,小目标可能丢失,需要融合之前的特征,该进见下图:

 

Multi-Scale(多尺度)
  1. 都是卷积操作,没有了全连接层,输入特征图大小可以改变了,一定Iterations之后改变输入图片大小。v1版本中有全连接层的存在,所以输入特征图大小固定。

总结

 

相关概念
  1. 目标检测中衡量识别精度的指标是mAP(mean average precision)

  2. FPS(每秒传输帧数-Frames Per Second),FPS就是目标网络每秒可以处理(检测)多少帧(多少张图片),FPS简单来理解就是图像的刷新频率,也就是每秒多少帧。

  3. 感受野:就是特征图上的点能看到原始图像多大区域。堆叠小的卷积核所需的参数更少一些,并且卷积过程越多,特征提取也会越细致,加入的非线性变换也随着增多,还不会增大权重参数个数,这就是VGG网络的基本出发点,用小的卷积核来完成物体特征提取操作。

思考

  1. 使用小卷积核的优点?

### 回答1: 以下是YOLOv1YOLOv2的主要区别1. Darknet-19代替了AlexNet作为YOLOv2的基础网络,因此YOLOv2在检测性能速度方面都比YOLOv1更优秀。 2. 对于YOLOv2,作者使用批量归一化(Batch Normalization)来提高模型的稳定性训练速度。这使得YOLOv2相对于YOLOv1更容易训练收敛。 3. YOLOv2使用更细的网格(grid)多尺度预测(multi-scale prediction)来提高检测精度多尺度目标检测的能力。具体来说,YOLOv2将输入图像分成不同的尺度,并在每个尺度上进行目标检测,这使得YOLOv2能够检测到不同大小的目标。 4. 在YOLOv2中,作者使用Anchor Boxes来预测目标的边界框。这一技术使得YOLOv2能够更好地处理目标的不同宽高比,并提高目标检测的精度。 5. YOLOv2在训练时使用了更多的数据增强技术,如旋转、缩放、平移等,以增加模型的鲁棒性泛化能力。 综上所述,YOLOv2在训练速度、检测精度、多尺度目标检测等方面都相对于YOLOv1有了较大的提升。 ### 回答2YOLO(You Only Look Once)是一种实时目标检测算法,YOLOv2YOLO改进版本。下面先介绍YOLOv1,再YOLOv2进行对比YOLOv1目标检测问题转化为一个回归问题,使用一个单一的神经网络来同时预测边界框类别。它将输入图像划分为SxS个网格(默认为7x7),每个网格预测B个边界框。对于每个边界框,预测的包围盒坐标是相对于该网格的,并使用卷积层来预测边界框的坐标。此外,每个网格还预测C个不同类别的置信度得分。最终,通过将网格的置信度得分预测的边界框坐标相乘得到最终的预测结果。 YOLOv2YOLOv1的基础上进行了一些重要的改进。首先,YOLOv2采用了更深更复杂的卷积神经网络,使用更多的卷积层更小的卷积核。这使得YOLOv2在预测时可以捕获更多的细节高级语义特征。其次,YOLOv2引入了Anchor Boxes的概念,用于处理多尺度目标。它将输入图像划分为不同尺度的网格,在每个尺度的网格上预测不同数量大小的边界框。这使得YOLOv2能够更好地处理不同大小的目标。此外,YOLOv2还使用了Batch Normalization改进的损失函数,以提高模型的训练稳定性准确性。 综上所述,YOLOv1相比,YOLOv2在网络结构、多尺度处理训练技巧等方面有了重大的改进。这些改进使得YOLOv2目标检测任务中具有更高的准确性更快的速度,尤其在实时场景下表现出色。 ### 回答3: YOLOv2YOLO(You Only Look Once)检测器中的第二个版本,相比YOLOv1,它在准确性速度上有了显著的提升。 首先,YOLOv2引入了DarkNet-19结构,它是一个19层的卷积神经网络模型,相比YOLOv1的网络结构更加深入,并且采用了预训练技术,从而提高了特征提取的能力。这就意味着在相同的输入图像下,YOLOv2可以更好地捕捉到目标的特征,从而提高了检测器的准确性。 其次,YOLOv2在网络结构中引入了Anchor Boxes的概念。Anchor Boxes是预先定义的多个矩形框,用来表示不同尺寸长宽比的目标。通过在Anchor Boxes上进行回归预测,YOLOv2可以更好地适应不同尺寸形状的目标,提高了检测器的灵活性准确性。 此外,为了进一步提高YOLOv2的检测能力,它还引入了多尺度训练测试技术。YOLOv2将输入图像分为不同尺度的网格,然后在每个尺度上进行检测,从而能够检测到不同大小的目标。这种多尺度的处理方式能够有效地提高检测器的覆盖率准确性。 最后,YOLOv2还通过使用BN(Batch Normalization)层更大的输入尺寸等技术,进一步提高了模型的性能。BN层能够加速模型的收敛速度,而更大的输入尺寸则能够提供更多的细节信息,从而增强了检测器的表达能力。 综上所述,相比YOLOv1YOLOv2在准确性速度上都有了显著的提升,这使得它在实时目标检测任务中具有更好的应用潜力。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值