VGG 详解+ mobilenet

本文深入探讨了VGG、MobilenetV1/V2、SSD、YOLO3等经典深度学习模型的结构与特点,从VGG的大规模视觉识别挑战赛表现到Mobilenet的轻量化设计,再到SSD和YOLO3的目标检测应用,全面解析了这些模型在不同场景下的优势与创新。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. vgg

VGG 2014年 ImageNet 定位任务第一名,分类任务第二名。

一般选用16层

堆叠多个3x3的卷积核代替大尺度卷积

input:224x224x3 图像

2个卷积后下采样+2个卷积后下采样+3个卷积后下采样+3个卷积后下采样+3个卷积后下采样 +3全连接层+softmax(将预测结果转为概率分布)

 

2.mobilenet v1

vgg 权重大小 490m,resnet 644m。

mobilenet 两大亮点:

1. depthwise convolution。俗称dw卷积。

2.增加超参数α(控制卷积核的个数)和β(分辨率的参数)。

 

传统卷积: 卷积核深度 = 输入特征矩阵深度,所以输出特征矩阵深度 = 卷积核的个数

dw卷积:卷积核深度=1,所以输入特征矩阵深度 = 卷积核个数 =输出矩阵深度

 

深度可分离卷积 = dw卷积+pw卷积(卷积核大小为1)

可节省参数1/N+1/9

 

然而,训练后dw卷积核容易废掉,即卷积核参数大部分为0。在v2版本改善。

总体结构:

conv+dw+conv+dw+conv+dw+conv+dw+conv+dw+conv+dw+conv+5(dw+conv)+dw+conv+dw+conv+pool+fc

+softmax

其中每个卷积之后都有BN和RELU

 

3. mobilenet v2

mobilenet v2 亮点:

1. inverted residuals(倒残差结构)

2. linear bottlenecks

 

残差结构:

1x1 卷积降维+relu

3x3卷积+relu

1x1卷积升维+relu

 

倒残差结构:

1x1 卷积升维+relu6

3x3 DW卷积+relu6

1x1卷积降维+linear

 对于linear bottlenecks,RELU对低维特征信息造成大量损失。 我们需要一个线性的激活函数。

 

倒残差结构 当stride =1且输入特征矩阵与输出特征矩阵shape相同时才有shortcut链接。

 

输出k为分类个数

总体结构:conv+(1 2 3 4 3 3 1 )倒残差+conv +avgpool+conv

 

4. ssd

输入图片300x300,加上灰条防止失真,分成38,19,10,5,3,1的网格

 

5.yolo 3

输入 416x416,加上灰条。 13,26,52的网格

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值