backbone的演化——resnet系列的进击！

最新推荐文章于 2024-11-01 16:54:29 发布

ThunderF

最新推荐文章于 2024-11-01 16:54:29 发布

阅读量462

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习 # 深度学习文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/ThunderF/article/details/109955520

ResNet深度残差网络的出现解决了梯度弥散/爆炸和网络退化问题，推动了深度学习的发展。从ResNet到ResNeXt、Res2Net和ResNeSt，这些网络在保留残差思想的基础上不断优化，提升了模型的表达能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

深度残差网络做出了深度学习发展历程里程碑式的贡献，它的出现极大地改变了深度网络的面貌，增加了深度网络的可学习纵深，以一种更加有效地方式提升了模型抽取特征的能力，从此残差映射和思想深入人心，有力地促进了目标识别、图像分类、实例分割等领域的发展。
自resnet出现至今，各位学者在借鉴resnet思想上，衍生出了一系列的深度学习网络，包括但不限于resnext、resnest等，下面就将对相关文章进行梳理。由于笔者才疏学浅，若有错漏之处，敬请指出。

正文

本文当前共梳理5篇文章，分别是ResNet¹、ResNeXt、Res2Net、ResNeSt、HS-ResNet。

ResNet

神经网络作为连接主义的代表，随着BP的算法出现再次活跃在舞台上。在2012年ImageNet竞赛上，AlexNet横空出世，向世人展现了神经网络强大的特征表达能力，省去了手工提取特征的方式，自此神经网络作为表征学习的代表被广大的研究人员所青睐。
神经网络通过一层又一层的感知机构建起前馈网络，使用激活函数来引入非线性，再通过梯度反传来不断逼近非线性目标。在这个过程中除了会有必然出现的过拟合问题(如果可以证明经验误差最小化就可以得到最优解，就能构造性地证明'P=NP'，否则只要相信'P≠NP'，过拟合就无法避免。) ² ，还有两个较为普遍的问题³，一是梯度弥散/爆炸问题，二是网络退化问题。

梯度弥散/爆炸问题

现代神经网络训练时多使用基于梯度反传的优化器，当网络愈深，其参数和激活结果的变化被放得也就愈大。最终出现梯度弥散/爆炸问题。
比如就梯度反传来说，假设 $\delta^i$ 是损失 $\epsilon$ 传播到第i层的结果,即 $\delta^i=\frac{\partial \epsilon}{\partial z^i}，z^i$ 是第i层的未激活的网络结果，根据链式法则，该层的结果受到上层结果的影响即
$\delta^i=\frac{\partial \epsilon}{\partial z^{i+1}} \cdot \frac{\partial z^{i+1}}{\partial a^i} \cdot \frac{\partial a^i}{\partial z^i}=\delta^{i+1}\cdot \frac{\partial z^{i+1}}{\partial z^i}， a^i = \sigma(z^i)$

最低0.47元/天解锁文章