resnet 残差网络（翻译）

最新推荐文章于 2025-05-12 20:08:37 发布

cztAI

最新推荐文章于 2025-05-12 20:08:37 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习框架文章标签：计算机视觉

原文链接：https://arxiv.org/pdf/1512.03385.pdf

深度学习框架专栏收录该内容

10 篇文章

订阅专栏

这篇论文提出深度残差学习框架，旨在简化极深神经网络的训练并提高其性能。传统的深度网络随着层数增加会遇到训练误差上升和精度退化的现象，而残差网络通过引入快捷连接，使得网络学习残差函数而非原始映射，从而解决了这一问题。在ImageNet和CIFAR-10数据集上的实验表明，残差网络能够从大幅增加的深度中获益，显著降低训练误差并提高测试精度。这种方法在ILSVRC2015分类任务中取得第一名，并在其他视觉任务上展现出强大的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

更深的神经网络更难训练。我们提出了一个残差学习框架，以简化比以前使用的网络更深入的网络训练。我们明确地将层重构为学习残差函数（参考层输入），而不是学习未参考的函数。我们提供了全面的经验证据，表明这些残差网络更容易优化，而且可以从相当大的深度提高精度。在ImageNet数据集上，我们评估了深度高达152层的残差网——比VGG网深8倍[41]，但复杂性仍然较低。这些残差网络的集合在ImageNet测试集上实现了3.57%的误差。该结果在ILSVRC 2015分类任务中获得第一名。我们还对100层和1000层的CIFAR-10进行了分析。

表征深度对于许多视觉识别任务至关重要。仅仅由于我们非常深入的表现，我们在COCO对象检测数据集上获得了28%的相对改进。深度残差网络是我们提交给ILSVRC & COCO 2015竞赛1的基础，我们还在ImageNet检测、ImageNet本地化、COCO检测和COCO分割任务中获得了第一名。

1. 导论

深度卷积神经网络[22，21]导致了图像分类的一系列突破[21，50，40]。深度网络自然地以端到端的多层方式集成了低/中/高层次特征[50]和分类器，并且特征的“层次”可以通过堆叠层的数量(深度)来丰富。最近的证据[41，44]表明，网络深度至关重要，在具有挑战性的ImageNet数据集[36]上的主要结果[41，44，13，16]都利用了“非常深”[41]的模型，深度为16[41]到30[16]。许多其他非平凡的视觉识别任务[8，12，7，32，27]也从深度模型中受益匪浅。

在深度意义的驱动下，一个问题产生了:学习更好的网络，是否像堆叠更多的层一样容易？回答这个问题的一个障碍是臭名昭著的梯度消失/梯度爆炸问题[1，9]，这从一开始就阻碍了收敛。然而，标准化初始化[23，9，37，13]和中间标准化层[16]在很大程度上解决了这个问题，这使得具有几十层的网络开始收敛于具有反向传播的随机梯度下降[22]。

当更深的网络能够开始收敛时，一个退化问题就暴露出来了:随着网络深度的增加，精度达到饱和(这可能并不令人惊讶)，然后迅速退化。出乎意料的是，这种退化不是由过拟合引起的，向适当深度的模型中添加更多的层会导致更高的训练误差，如[11，42]中所报告的，并由我们的实验彻底验证。图1显示了一个典型的例子。
在这里插入图片描述
图1。在具有20层和56层“普通”网络的CIFAR-10上，训练错误(左)和测试错误(右)。网络越深，训练误差越大，测试误差也越大。ImageNet上的类似现象如图4所示。

(训练精度的)下降表明，并不是所有的系统都同样容易优化。让我们考虑一个更浅的架构和它的更深的对应结构，它增加了更多的层。通过构造更深的模型，有一个解决方案:添加的层是恒等映射（identity mapping），其他层是从学习的更浅的模型中复制的。该构造解的存在表明，较深的模型不会比较浅的模型产生更高的训练误差。但是实验表明，我们现有的求解器无法找到比构造的解更好的解(或者无法在可行的时间内找到)。

在本文中，我们通过引入深度残差学习框架来解决退化问题。我们不是希望每几个堆叠的层直接拟合所需的下层映射，而是显式地让这些层拟合残差映射。形式上，将期望的下层映射表示为 $H (x)$ ，我们让堆叠的非线性层拟合的另一个映射: $F (x) = H (x) - x$ 。原始映射被重铸为 $F (x) + x$ 。我们假设残差映射比原始的、未参考的映射更容易优化。在极端情况下，如果一个恒等映射是最优的，那么将残差置零比用一堆非线性层来拟合一个恒等映射更容易。

$F (x) + x$ 的公式可以通过带有“快捷连接”（“shortcut connections” ）的前馈神经网络来实现(图2)。快捷方式连接[2，34，49]是跳过一层或多层的连接。在我们的例子中，快捷连接简单地执行恒等映射，并且它们的输出被添加到堆叠层的输出(图2)。标识快捷方式连接既不会增加额外的参数，也不会增加计算复杂性。整个网络仍然可以由SGD通过反向传播进行端到端训练，并且可以使用公共库(例如Caffe [19])轻松实现，而无需修改解算器。
在这里插入图片描述
图2。残差学习:构建模块。

我们在ImageNet [36]上进行了综合实验，以显示退化问题并评估我们的方法。我们发现:1)我们的极深残差网很容易优化，但是对应的“普通”网络(简单堆叠层)随着深度的增加表现出更高的训练误差；2)我们的深度剩余网可以很容易地从大大增加的深度中获得精度增益，产生比以前的网络好得多的结果。

在CIFAR-10集合[20]上也显示了类似的现象，这表明优化的困难和效果是不可避免的。我们在这个有超100层的数据集上展示了成功训练的模型，并探索了有超1000层的模型。

在ImageNet分类数据集[36]上，我们通过极深的残差网获得了极好的结果。我们的152层残差网络是ImageNet上有史以来最深的网络，但其复杂性仍低于VGG网络[41]。我们的集成在ImageNet测试集上有3.57%的前5名错误，并在ILSVRC 2015分类竞赛中获得第一名。极深的表示在其他识别任务上也具有出色的泛化性能，并带领我们在ILSVRC & COCO 2015竞赛中进一步赢得了ImageNet检测、ImageNet定位、COCO检测和COCO分割的第一名。这个强有力的证据表明，剩余学习原理是通用的，我们期望它适用于其他视觉和非视觉问题。

2. 相关工作

残差表示。在图像识别中，VLAD[18]是对字典残差向量进行编码的表示，而Fisher V向量[30]可以表述为VLAD的概率版本[18]。它们都是图像检索和分类的强大浅层表示[4,48]。对于矢量量化，残差矢量[17]编码比原始矢量编码更有效。

在低级视觉和计算机图形学中，为了解决偏微分方程(PDEs)，广泛使用的多重网格方法[3]将系统重新定义为多尺度的子问题，其中每个子问题负责粗尺度和细尺度之间的残差解。多重网格的另一种选择是层次基预处理[44,46]，它依赖于代表两个尺度之间残差向量的变量。已经证明[3,45,46]，这些求解器收敛得比不知道解的残差性质的标准求解器快得多。这些方法表明，良好的重新配方或预处理可以简化优化过程。

快捷连接（“shortcut connections” ）。导致捷径联系的实践和理论研究[2,34,49]由来已久。多层感知器(MLPs)的早期训练实践是添加一个从网络输入到输出的线性层[34,49]。在[44,24]中，一些中间层直接连接到用于处理消失/爆炸梯度的辅助分类器。[39,38,31,47]的论文提出了通过快捷连接实现的对中层响应、梯度和传播误差的方法。在[44]中，“初始”层由一个快捷分支和几个更深的分支组成。

与我们的工作同时，“高速网络”[44,43]呈现了带有门通功能[15]的捷径连接。这些门依赖于数据，有参数，而我们的身份快捷键是没有参数的。当门禁捷径“关闭”(接近于零)时，公路网络中的层代表非残差功能。相反，我们的公式总是学习残差函数;我们的恒等捷径永远不会关闭，所有的信息总是经过，还有额外的残差函数需要学习。此外，高速网络在深度增加(例如超过100层)时，没有显示出精度的提高。

3. 深度残差学习

3.1 残差学习

让我们把 $H (x)$ 看作是一个下层映射，由几个堆叠的层(不一定是整个网络)拟合， $x$ 表示第一个层的输入。如果假设多个非线性层可以渐近逼近复杂函数，那么就相当于假设多个非线性层可以渐近逼近残差函数，即 $H (x) - x$ (假设输入和输出具有相同的维数)。因此，我们不是期望堆叠的层近似于 $H (x)$ ，而是明确地让这些层近似于残差函数 $F (x) = H (x) - x$ ，因此原始函数就变成了 $F (x) + x$ 。尽管两种形式都应该能够渐进地接近所需的函数(如假设的那样)，但学习的容易程度可能是不同的。

这种重新表述的动机是关于退化问题的反直觉现象(图1，左)。正如我们在介绍中所讨论的，如果添加的层可以构建为恒等映射，那么更深层次的模型的训练错误应该不大于更浅层次的对应模型。退化问题表明，求解器在恒等映射的多个非线性层可能有困难。利用残差学习重构，如果恒等映射是最优的，求解器可以简单地将多个非线性层的权值向零（ $F (x) = 0$ ）逼近单位映射。

在实际情况中，恒等映射不太可能是最优的，但是我们的重新表述可能有助于解决这个问题。如果最优函数更接近恒等映射而不是零映射，那么求解器应该更容易找到有关恒等映射的扰动，而不是学习一个新的函数。我们通过实验(图7)表明，学习到的残差函数一般具有较小的响应，这表明恒等映射提供了合理的预处理。

3.2. 恒等映射快捷

我们对每几个堆叠层采用残差学习。一个构建块如图2所示。在形式上，在本文中，我们将构建块定义为:
$\mathcal{F}(x,\left \{W_i \right \}) + x \tag{1}$

这里 $x$ 和 $y$ 是考虑的层的输入和输出向量。函数 $\mathcal{F}(x,\left \{W_i \right \})$ 表示需要学习的残差映射。对于图2中有两层的例子， $\mathcal{F} = W_2σ(W_1x)$ ，其中σ表示ReLU，但仍是一个有待解决的问题。参见[28]。为了简化符号，省略了ReLU[29]和偏差。操作 $\mathcal{F} + x$ 是通过一个快捷连接和元素相关的加法来执行的。我们采用加法后的第二个非线性(即σ(y)，见图2)。

公式(1)中的快捷连接既不引入额外的参数，也不增加计算复杂度。这不仅在实践中具有吸引力，而且在我们比较普通网络和残差网络时也很重要。我们可以比较同时具有相同数量的参数、深度、宽度和计算成本(除了可以忽略的元素相加)的普通网络/残差网络。在公式(1)中， $x$ 和 $\mathcal{F}$ 的维数必须相等。如果不是这样(例如，当改变输入/输出通道时)，我们可以通过捷径连接进行线性投影 $W_s$ 来匹配尺寸:
$\mathcal{F}(x,\left \{W_i \right \}) + W_s x \tag{2}$

我们也可以在公式(1)中使用方阵 $W_s$ 。但我们将通过实验证明，恒等映射足以解决退化问题，而且是经济的，因此 $W_s$ 只在匹配维度时使用。

残差函数 $\mathcal{F}$ 的形式是随意的。本文的实验涉及一个函数 $\mathcal{F}$ ，它有两层或三层(图5)，也可以有更多层。但如果 $\mathcal{F}$ 只有单层，则公式(1)类似于线性层: $y = W_1x+x$ ，我们没有观察到其优势。

我们还注意到，尽管上面的表示法是关于完全连接层的，但它们适用于卷积层。函数 $\mathcal{F}(x,\left \{W_i \right \})$ 可以表示多个卷积层。在两个特性映射上逐个通道执行元素相关的添加。

3.3. 网络架构

我们测试了各种普通网络/残差网络，观察到一致的现象。为了提供供讨论的实例，我们描述了ImageNet的两个模型，如下所示。

普通的网络。我们的基线(图3，中间)主要是受VGG网41的哲学启发。卷积层大多有3×3过滤器，并遵循两个简单的设计规则:
(i)对于相同的输出特征图大小，层有相同的过滤器数量;
(ii)如果feature map的大小减半，滤波器的数量就会增加一倍，以保持每层的时间复杂度。
我们通过步幅为2的卷积层直接执行降采样。网络以全局平均池化层和softmax的1000路全连接层结束。图3(中)加权层数为34层。

值得注意的是，我们的模型比VGG网[41]有更少的滤波器和更低的复杂度(图3，左)。我们的34层基线有36亿次FLOPs(乘法加分)，仅为VGG-19(196亿次FLOPs)的18%。

残差网络。在上述普通网络的基础上，插入快捷连接(图3，右)，将网络变成对应的残差网络。当输入和输出尺寸相同时(图3实线捷径)，可以直接使用恒等捷径(公式(1))。当维数增加时(图3中的虚线捷径)，我们考虑两种选择:
(A)捷径仍然执行恒等映射，增加维数时填充额外的零项。这个选项不引入额外的参数;
(B) 公式(2)中的投影快捷方式用于匹配尺寸(由1×1卷积完成)。对于这两个选项，当捷径跨越两种尺寸的特征图时，它们的执行步幅为2。

3.4. 实现

我们的ImageNet实现遵循了[21,41]中的实践。图像被调整大小与其较短的边随机抽样[256,480]为规模扩大[41]。从图像或其水平翻转中随机取样224×224，像素减去平均值[21]。使用[21]中的标准颜色增强。我们在每次卷积后和激活前[16]之后采用批次归一化(BN)[16]。我们初始化[13]中的权值，并从零开始训练所有普通/残馀网。我们使用SGD，小批量为256。学习速率从0.1开始，当误差趋于平稳时除以10，模型将被训练为60×104次迭代。我们用0.0001的权重衰减和0.9的动量。我们不使用dropout[14]，按照[16]的做法。

在试验中，为了进行比较研究，我们采用标准的10种作物试验[21]。为了获得最好的结果，我们采用[41,13]中的完全卷积形式，并在多个尺度上平均得分(图像被调整大小，使较短的边在{224,256,384,480,640}中)。

4. 实验

4.1. 图像分类

我们在ImageNet 2012分类数据集[36]上评估了我们的方法，该数据集包含1000个类。该模型在128万张训练图像上进行训练，并在50k验证图像上进行评估。我们还获得了测试服务器报告的100k测试图像的最终结果。我们评估了排名前1和前5的错误率。

普通网络。我们首先评估了18层和34层的普通网络。34层普通网络如图3(中)所示。18层普通网络也是类似的形式。详细的架构见表1。
在这里插入图片描述
表1。ImageNet架构。方括号中显示了构建块(也见图5)，以及堆叠的块的数量。下采样由conv3 1、conv4 1和conv5 1完成，步长为2。

在这里插入图片描述
图3。ImageNet的网络架构示例。左:VGG-19模型41作为参考。中间:包含34个参数层(36亿次FLOPs)的普通网络。右:34个参数层(36亿次FLOPs)的剩余网络。虚线的快捷方式增加了尺寸。表1显示了更多细节和其他变体。

表2的结果表明，较深的34层普通网络比较浅的18层普通网络具有更高的验证误差。为了揭示原因，在图4(左)中，我们比较了他们在训练过程中的训练/验证错误。我们观察到了退化问题——尽管18层普通网络的解空间是34层普通网络的子空间，但在整个训练过程中，34层普通网络的训练误差都较高。
在这里插入图片描述
表2。ImageNet验证的Top-1错误(%，10茬测试)。这里的resnet与普通的对等体相比没有额外的参数。训练流程如图4所示。

在这里插入图片描述
图4。ImageNet训练。细曲线表示训练误差，粗体曲线表示中心作物的验证误差。左:18层和34层的普通网络。右图:18层和34层的ResNets。在这幅图中，残差网络与普通网络相比没有额外的参数。

我们认为这种优化困难不太可能是由梯度消失引起的。这些普通网络使用BN[16]进行训练，保证了前向传播的信号具有非零方差。我们还验证了反向传播的梯度在BN上表现出健康的范数。所以向前和向后的信号都不会消失。事实上，34层的普通网络仍然能够达到竞争精度(表3)，说明该求解器在一定程度上是可行的。我们推测深层普通网络可能具有指数级的低收敛速度，这影响了训练误差的减少3。这种优化困难的原因将在未来研究。

残差网络。接下来对18层和34层残差网络(ResNets)进行评估。基线架构与上面的普通网络相同，只是在每对3×3滤波器上添加一个快捷连接，如图3(右)所示。在第一个比较中(右表2和图4)，我们对所有捷径使用恒等映射，对增加维度使用零填充(选项A)。因此，它们与普通的对等体相比没有额外的参数。

从表2和图4中，我们有三个主要的观察结果。首先，残差学习的情况与此相反——34层的ResNet比18层的ResNet好2.8%。更重要的是，34层的ResNet显示出相当低的训练误差，并可推广到验证数据。这表明退化问题在这种设置中得到了很好的解决，我们设法从增加的深度获得精度增益。

第二，与普通的相比，34层的ResNet减少了3.5%的top-1误差(表2)，这是成功减少训练误差的结果(图4右与左)。这一比较验证了残差学习在极深系统上的有效性。

最后，我们还注意到18层的普通网络/残差网络相对准确(表2)，但18层的ResNet收敛更快(图4右与左)。当网络“不太深”(这里是18层)时，当前的SGD求解器仍然能够找到普通网络的好解决方案。在这种情况下，ResNet通过在早期阶段提供更快的收敛来简化优化。

恒等与投射捷径。我们已经证明了无参数的恒等捷径有助于训练。接下来我们研究投影捷径(公式(2))。在表3中，我们比较了三个选项:
A: 零填充快捷键用于增加维度，并且所有快捷键都是无参数的(与右表2和图4相同);
B: 投影捷径用于增加维度，其他捷径为恒等式;
C: 所有的捷径都是投影。
在这里插入图片描述
表3。ImageNet验证的错误率(%，10茬测试)。VGG-16是基于我们的测试。ResNet-50/101/152是选项B，它只使用投影来增加尺寸。

表3显示了所有这三个选项都比普通选项要好得多。B略优于A。我们认为这是因为A中的零填充维度确实没有残差学习。C略优于B，我们将此归因于许多(13)个投影捷径引入的额外参数。但是A/B/C之间的微小差异表明，预测捷径对于解决退化问题并不是必要的。因此，在本文的其余部分中，我们不使用选项C，以减少内存/时间复杂性和模型规模。标识快捷方式对于不增加下面介绍的瓶颈体系结构的复杂性特别重要。

更深层次的Bottleneck架构。接下来，我们将描述ImageNet更深层次的网络。因为考虑到我们负担得起的训练时间，我们将构建块修改为Bottleneck设计。对于每个残差函数 $\mathcal{F}$ ，我们使用3层的堆栈，而不是2层(图5)。这三层是1×1、3×3和1×1卷积，其中1×1层负责降维和升维，留下3×3层的输入/输出维更小的Bottleneck。图5显示了一个例子，其中两种设计具有相似的时间复杂度。
在这里插入图片描述
图5. ImageNet更深层次的残差函数 $\mathcal{F}$ 。左图:构建块(在56×56特性地图上)，如图3所示。右图:ResNet-50/101/152的“Bottleneck”构建块。

无参数恒等快捷方式对于Bottleneck体系结构尤为重要。如果将图5(右)中的身份捷径替换为投影，可以看出，由于捷径连接到两个高维端点，时间复杂度和模型尺寸增加了一倍。因此，恒等捷径为Bottleneck设计带来了更有效的模型。

50层ResNet:我们用这个3层瓶颈块替换34层网络中的每个2层块，从而形成一个50层的ResNet(表1)。我们使用选项B来增加维度。这个模型有38亿次FLOPs。

101层和152层的ResNet:我们使用更多的3层区块构建了101层和152层的ResNet(表1)。值得注意的是，尽管深度显著增加，152层ResNet(113亿次FLOPs)的复杂性仍然低于VGG-16/19网(153 / 196亿次FLOPs)。

50/101/152层的ResNets比34层的ResNets更精确(表3和表4)。我们没有观察到退化问题，因此从显著增加的深度中获得了显著的精度。所有的评估指标(表3和表4)都见证了深度的好处。

与最先进方法的比较。在表4中，我们与之前的最佳单模型结果进行了比较。我们的基准34层ResNets已经达到了非常具有竞争力的准确性。我们的152层ResNet的单模型前5位验证误差为4.49%。我们将6个不同深度的模型组合成一个集成(仅在提交时有2个152层的集成)。这导致测试集的top-5误差为3.57%(表5)。该条目在2015年ILSVRC中获得了第一名。
在这里插入图片描述
表4。ImageNet验证集上单模型结果的错误率(%)(测试集上报告的†除外)。

表5所示。集成的错误率(%)。前5个错误发生在ImageNet的测试集中，并由测试服务器报告。

4.2.CIFAR-10和分析

我们对CIFAR-10数据集[20]进行了更多的研究，该数据集由10个类的50k张训练图像和10k张测试图像组成。我们在训练集中进行实验，并在测试集中进行评价。我们关注的是极深层网络的行为，而不是推动最先进的结果，因此我们有意使用如下简单的架构。

普通/残差结构如图3(中/右)所示。网络输入是32×32图像，减去每像素的平均值。第一层是3×3卷积。然后在大小分别为{32,16,8}的特征地图上使用6n层(3×3)卷积的堆叠，每个特征地图大小为2n层。过滤器的数量分别为{16,32,64}。子采样是通过步长为2的卷积来完成的。网络以全局平均池、10路全连接层和softmax结束。总共有6n+2个叠加加权层。下表总结了架构:

output map size	32×32	16×16	8×8
layers	1+2n	2n	2n
filters	16	32	64

当使用快捷方式连接时，连接到3×3层对(共3n个快捷方式)。在这个数据集中，我们在所有情况下都使用标识快捷方式(即选项A)，因此我们的残差模型与普通模型具有完全相同的深度、宽度和参数数量。

在这里插入图片描述
表6所示。CIFAR-10测试集上的分类错误。所有方法都具有数据扩大性。对于ResNet-110，我们运行它5次并显示“best (均值±标准差)”，如在[43]中。

我们的权值衰减为0.0001，动量为0.9，[13]和BN[16]采用权值初始化，但没有dropout。这些模型在两个gpu上以128的小批量进行训练。我们从0.1的学习率开始，在32k和48k迭代时除以10，在64k迭代时终止训练，这是由45k/5k train/val分割决定的。我们在[24]中遵循简单的数据增强训练:每边填充4个像素，从填充图像或水平翻转中随机取样一个32×32作物。为了测试，我们只评估原始32×32图像的单个视图。

我们比较n ={3,5,7,9}，得到20,32,44和56层网络。图6(左)显示了普通网络的行为。深层普通网络的深度增加了，并且在更深的时候表现出更高的训练误差。这种现象类似于ImageNet(图4，左)和MNIST(见[42])的情况，说明这种优化困难是一个基本问题。

图6(中)显示了ResNets的行为。同样类似于ImageNet案例(图4，右)，我们的ResNets成功地克服了优化的困难，并在深度增加时显示了精度的提高。
在这里插入图片描述
图6。CIFAR-10训练。虚线表示训练错误，粗体表示测试错误。左:纯网络。plain-110的误差大于60%，不显示。中间:ResNets。右图:有110和1202层的ResNets。

我们进一步探索了n = 18，得到了一个110层的ResNet。在这种情况下，我们发现初始学习率0.1有点大，无法开始收敛5。所以我们使用0.01来热身训练，直到训练误差低于80%(大约400次迭代)，然后回到0.1继续训练。学习计划的其余部分和前面一样。该110层网络具有较好的收敛性(图6，中间)。与FitNet[35]和Highway[42]等其他深度和薄的网络相比，它的参数更少(表6)，但却是最先进的结果之一(6.43%，表6)。

层响应分析。图7为层响应的标准差(std)。响应是每个3×3层的输出，在BN之后和其他非线性(ReLU/加法)之前。对于ResNets来说，这一分析揭示了残差函数的响应强度。图7显示，resnet的响应通常比普通的同类产品要小。这些结果支持了我们的基本动机(第3.1节)，即残差函数可能通常比非残差函数更接近于零。我们还注意到，从图7中ResNet-20、56和110之间的比较可以看出，更深的ResNet的响应幅度更小。当有更多层时，resnet的单个层对信号的修改较少。
在这里插入图片描述
图7。CIFAR10层响应的标准偏差(std)。响应为BN后非线性前每个3×3层的输出。上面:图层按原来的顺序显示。底部:响应按降序排列。

探索超过1000层。我们探索了一个超过1000层的深度模型。我们设置n = 200，得到一个1202层网络，按照上面的描述进行训练。我们的方法没有优化难度，103层网络能够实现训练误差<0.1%(图6，右)。它的测试误差仍然相当好(7.93%，表6)。

但是，在这种具有侵略性的深度模型上仍然存在一些未解决的问题。这个1202层网络的测试结果比我们的110层网络的测试结果差，虽然两者有相似的训练错误。我们认为这是因为过度拟合。对于这样小的数据集来说，1202层网络可能太大了(19.4M)。采用强正则化(如maxout[10]或dropout[14])得到该数据集的最佳结果([10,25,24,35])。在本文中，我们没有使用maxout/dropout，只是简单地通过设计的深度和瘦架构强加正则化，而没有分散对优化难点的关注。但与更强的正则化相结合可能会改善结果，我们将在未来进行研究。

4.3. 基于PASCAL和MS COCO的目标检测

该方法对其他识别任务具有良好的泛化性能。表7和8显示了PASCAL VOC 2007和2012[5]和COCO[26]的目标检测基线结果。我们采用Faster R-CNN[32]作为检测方法。在这里，我们感兴趣的是用ResNet-101取代VGG-16[41]的改进。使用这两种模型的检测实现(见附录)是相同的，因此增益只能归因于更好的网络。最值得注意的是，在具有挑战性的COCO数据集上，我们获得了COCO的标准度量增加了6.0%。5， .95])，这是一个28%的相对进步。这种增益完全是由于学习的表象。

基于深度残差网，我们在ILSVRC & COCO 2015年的ImageNet检测、ImageNet定位、COCO检测、COCO分割等多项竞赛中获得了第一名。详情见附录。

参考

[1] Y . Bengio, P . Simard, and P . Frasconi. Learning long-term dependen-
cies with gradient descent is difficult. IEEE Transactions on Neural
Networks, 5(2):157–166, 1994.
[2] C. M. Bishop. Neural networks for pattern recognition. Oxford
university press, 1995.
[3] W. L. Briggs, S. F. McCormick, et al. A Multigrid Tutorial. Siam,2000.
[4] K. Chatfield, V. Lempitsky, A. Vedaldi, and A. Zisserman. The devil
is in the details: an evaluation of recent feature encoding methods.
In BMVC, 2011.
[5] M. Everingham, L. V an Gool, C. K. Williams, J. Winn, and A. Zis-
serman. The Pascal Visual Object Classes (VOC) Challenge. IJCV,
pages 303–338, 2010.
[6] S. Gidaris and N. Komodakis. Object detection via a multi-region &
semantic segmentation-aware cnn model. In ICCV, 2015.
[7] R. Girshick. Fast R-CNN. In ICCV, 2015.
[8] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hier-
archies for accurate object detection and semantic segmentation. In
CVPR, 2014.
[9] X. Glorot and Y . Bengio. Understanding the difficulty of training
deep feedforward neural networks. In AISTATS, 2010.
[10] I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and
Y . Bengio. Maxout networks. arXiv:1302.4389, 2013.
[11] K. He and J. Sun. Convolutional neural networks at constrained time
cost. In CVPR, 2015.
[12] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep
convolutional networks for visual recognition. In ECCV, 2014.
[13] K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers:
Surpassing human-level performance on imagenet classification. In
ICCV, 2015.
[14] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and
R. R. Salakhutdinov. Improving neural networks by preventing co-
adaptation of feature detectors. arXiv:1207.0580, 2012.
[15] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural
computation, 9(8):1735–1780, 1997.
[16] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep
network training by reducing internal covariate shift. In ICML, 2015.
[17] H. Jegou, M. Douze, and C. Schmid. Product quantization for nearest
neighbor search. TPAMI, 33, 2011.
[18] H. Jegou, F. Perronnin, M. Douze, J. Sanchez, P . Perez, and
C. Schmid. Aggregating local image descriptors into compact codes.
TPAMI, 2012.
[19] Y . Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick,
S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for
fast feature embedding. arXiv:1408.5093, 2014.
[20] A. Krizhevsky. Learning multiple layers of features from tiny im-
ages. Tech Report, 2009.
[21] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification
with deep convolutional neural networks. In NIPS, 2012.
[22] Y . LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard,
W. Hubbard, and L. D. Jackel. Backpropagation applied to hand-
written zip code recognition. Neural computation, 1989.
[23] Y . LeCun, L. Bottou, G. B. Orr, and K.-R. Müller. Efficientbackprop.
In Neural Networks: Tricks of the Trade, pages 9–50. Springer, 1998.
[24] C.-Y . Lee, S. Xie, P . Gallagher, Z. Zhang, and Z. Tu. Deeply-
supervised nets. arXiv:1409.5185, 2014.
[25] M. Lin, Q. Chen, and S. Yan. Network in network. arXiv:1312.4400,2013.
[26] T.-Y . Lin, M. Maire, S. Belongie, J. Hays, P . Perona, D. Ramanan,
P . Dollár, and C. L. Zitnick. Microsoft COCO: Common objects in
context. In ECCV. 2014.
[27] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks
for semantic segmentation. In CVPR, 2015.
[28] G. Montúfar, R. Pascanu, K. Cho, and Y . Bengio. On the number of
linear regions of deep neural networks. In NIPS, 2014.
[29] V . Nair and G. E. Hinton. Rectified linear units improve restricted
boltzmann machines. In ICML, 2010.
[30] F. Perronnin and C. Dance. Fisher kernels on visual vocabularies for
image categorization. In CVPR, 2007.
[31] T. Raiko, H. V alpola, and Y . LeCun. Deep learning made easier by
linear transformations in perceptrons. In AISTATS, 2012.
[32] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards
real-time object detection with region proposal networks. In NIPS,2015.
[33] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun. Object detection
networks on convolutional feature maps. arXiv:1504.06066, 2015.
[34] B. D. Ripley. Pattern recognition and neural networks. Cambridge
university press, 1996.
[35] A. Romero, N. Ballas, S. E. Kahou, A. Chassang, C. Gatta, and
Y . Bengio. Fitnets: Hints for thin deep nets. In ICLR, 2015.
[36] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma,
Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet
large scale visual recognition challenge. arXiv:1409.0575, 2014.
[37] A. M. Saxe, J. L. McClelland, and S. Ganguli. Exact solutions to
the nonlinear dynamics of learning in deep linear neural networks.
arXiv:1312.6120, 2013.
[38] N. N. Schraudolph. Accelerated gradient descent by factor-centering
decomposition. Technical report, 1998.
[39] N. N. Schraudolph. Centering neural network gradient factors. In
Neural Networks: Tricks of the Trade, pages 207–226. Springer,1998.
[40] P . Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y . Le-
Cun. Overfeat: Integrated recognition, localization and detection
using convolutional networks. In ICLR, 2014.
[41] K. Simonyan and A. Zisserman. V ery deep convolutional networks
for large-scale image recognition. In ICLR, 2015.
[42] R. K. Srivastava, K. Greff, and J. Schmidhuber. Highway networks.
arXiv:1505.00387, 2015.
[43] R. K. Srivastava, K. Greff, and J. Schmidhuber. Training very deep
networks. 1507.06228, 2015.
[44] C. Szegedy, W. Liu, Y . Jia, P . Sermanet, S. Reed, D. Anguelov, D. Er-
han, V . V anhoucke, and A. Rabinovich. Going deeper with convolu-
tions. In CVPR, 2015.
[45] R. Szeliski. Fast surface interpolation using hierarchical basis func-
tions. TPAMI, 1990.
[46] R. Szeliski. Locally adapted hierarchical basis preconditioning. In
SIGGRAPH, 2006.
[47] T. V atanen, T. Raiko, H. V alpola, and Y . LeCun. Pushing stochas-
tic gradient towards second-order methods–backpropagation learn-
ing with transformations in nonlinearities. In Neural Information
Processing, 2013.
[48] A. V edaldi and B. Fulkerson. VLFeat: An open and portable library
of computer vision algorithms, 2008.
[49] W. V enables and B. Ripley. Modern applied statistics with s-plus.1999.
[50] M. D. Zeiler and R. Fergus. Visualizing and understanding convolu-
tional neural networks. In ECCV, 2014.