【论文阅读笔记】从ResNet到ResNeXt

本文是关于ResNet和ResNeXt深度学习网络的论文阅读笔记。ResNet通过引入残差块解决了深度网络的退化问题,允许网络更容易学习深层的恒等映射。ResNeXt则进一步改进,采用分组卷积降低计算量,同时可能起到正则化作用,提高模型性能。通过对不同结构的实验,证明了ResNeXt在参数量减少的情况下,效果优于ResNet。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文地址

ResNethttps://arxiv.org/pdf/1512.03385.pdf
ResNeXthttps://arxiv.org/abs/1611.05431

ResNet基本思想

在训练深层网络时,一般会遇到三个问题:

  1. 过拟合。这一点其实很好理解,因为训练的损失函数是训练集上的loss,当训练数据比较少,网络参数比较多的时候很容易为了减小训练集loss而过拟合。但过拟合问题不在本文的讨论范围之内,这里不做赘述。
  2. 梯度消失/爆炸。我们考虑一个简单的三层网络, f ( x ) f(x) f(x)为激活函数, x x x为输入, f i ( x ) f_i(x) fi(x)表示第 i i i层输出结果。那么首先,显然有 f i + 1 = f ( ω i ⋅ f i + b ) ∂ f i + 1 = ω i ⋅ ∂ f i ⋅ f ′ f_{i+1}=f(\omega_i\cdot f_i +b)\\ \partial{f_{i+1}}=\omega_i \cdot \partial{f_i}\cdot f^{'} fi+1=f(ωifi+b)fi+1=ωifif这里不妨令 b = 0 b=0 b=0,那么根据梯度下降的原理,我们会对参数 ω \omega ω进行更新: ω i : = ω i − α ⋅ ∂ L ∂ ω i \omega_i:=\omega_i-\alpha\cdot \dfrac{\partial{L}}{\partial{\omega_i}} ωi:=ωiαωiL
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值