ILSVRC-ImageNet历年竞赛冠军

ImageNet

是一个超过15 million的图像数据集,大约有22,000类。
是由李飞飞团队从2007年开始,耗费大量人力,通过各种方式(网络抓取,人工标注,亚马逊众包平台)收集制作而成,它作为论文在CVPR-2009发布。当时人们还很怀疑通过更多数据就能改进算法的看法。
深度学习发展起来有几个关键的因素,一个就是庞大的数据(比如说ImageNet),一个是GPU的出现。(还有更优的深度模型,更好的优化算法,可以说数据和GPU推动了这些的产生,这些产生继续推动深度学习的发展)。

ILSVRC

是一个比赛,全称是ImageNet Large-Scale Visual Recognition Challenge,平常说的ImageNet比赛指的是这个比赛。
使用的数据集是ImageNet数据集的一个子集,一般说的ImageNet(数据集)实际上指的是ImageNet的这个子集,总共有1000类,每类大约有1000张图像。具体地,有大约1.2 million的训练集,5万验证集,15万测试集。

ILSVRC从2010年开始举办,到2017年是最后一届(在算法层面已经刷过拟合了,再比下去意义不是很大了)。ILSVRC-2012的数据集被用在2012-2014年的挑战赛中(VGG论文中提到)。ILSVRC-2010是唯一提供了test set的一年。
ImageNet可能是指整个数据集(15 million),也可能指比赛用的那个子集(1000类,大约每类1000张),也可能指ILSVRC这个比赛。需要根据语境自行判断。
12-15年期间在ImageNet比赛上提出了一些经典网络,比如AlexNet,ZFNet,OverFeat,VGG,Inception,ResNet。
16年之后也有一些经典网络,比如WideResNet,FractalNet,DenseNet,ResNeXt,DPN,SENet。

2012年

AlexNet是2012年ImageNet竞赛冠军获得者Hinton和他的学生Alex Krizhevsky设计的。也是在那年之后,更多的更深的神经网络被提出,比如优秀的vgg,GoogLeNet。AlexNet中包含了几个比较新的技术点,也首次在CNN中成功应用了ReLU、Dropout和LRN等Trick。

2013年

OverFeat:OverFeat是早期经典的one-stage Object Detection的方法,基于AlexNet,实现了识别、定位、检测共用同一个网络框架;获得了2013年ILSVRC定位比赛的冠军。

OverFeat方法的主要创新点是 multiscale 、sliding window、offset pooling,以及基于AlexNet的识别、定位和检测方法的融合。

2014年

GoogLeNet 冠军:从Inception v1到v4。引入稀疏特性和将全连接层转换成稀疏连接。在inception结构中,大量采用了1x1的矩阵,主要是两点作用:1)对数据进行降维;2)引入更多的非线性,提高泛化能力,因为卷积后要经过ReLU激活函数。

VGG(亚军):VGG模型在多个迁移学习任务中的表现要优于googLeNet。而且,从图像中提取CNN特征,VGG模型是首选算法。它的缺点在于,参数量有140M之多,需要更大的存储空间。

VGG的特点:
小卷积核。作者将卷积核全部替换为3x3(极少用了1x1);
小池化核。相比AlexNet的3x3的池化核,VGG全部为2x2的池化核;
层数更深特征图更宽。基于前两点外,由于卷积核专注于扩大通道数、池化专注于缩小宽和高,使得模型架构上更深更宽的同时,计算量的增加放缓;
全连接转卷积。网络测试阶段将训练阶段的三个全连接替换为三个卷积,测试重用训练时的参数,使得测试得到的全卷积网络因为没有全连接的限制,因而可以接收任意宽或高为的输入。

2015年

ResNet:
残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题 。

生成了ResNet-50,ResNet-101,ResNet-152. 随着深度增加,因为解决了退化问题,性能不断提升。作者最后在Cifar-10上尝试了1202层的网络,结果在训练误差上与一个较浅的110层的相近,但是测试误差要比110层大1.5%。作者认为是采用了太深的网络,发生了过拟合

2016年

Trimps-Soushen冠军

ResNeXt(亚军):
ResNeXt是ResNet[2]和Inception[3]的结合体,不同于Inception v4[4]的是,ResNext不需要人工设计复杂的Inception结构细节,而是每一个分支都采用相同的拓扑结构。ResNeXt的本质是分组卷积(Group Convolution)[5],通过变量基数(Cardinality)来控制组的数量。组卷机是普通卷积和深度可分离卷积的一个折中方案,即每个分支产生的Feature Map的通道数为 [公式]

2017年

SENet
SENet是ImageNet 2017(ImageNet收官赛)的冠军模型,和ResNet的出现类似,都在很大程度上减小了之前模型的错误率),并且复杂度低,新增参数和计算量小。下面就来具体介绍一些SENet的神奇之处。

SENet的全称是Squeeze-and-Excitation Networks,中文可以翻译为压缩和激励网络。主要由两部分组成:

  1. Squeeze部分。即为压缩部分,原始feature map的维度为HWC,其中H是高度(Height),W是宽度(width),C是通道数(channel)。Squeeze做的事情是把HWC压缩为11C,相当于把HW压缩成一维了,实际中一般是用global average pooling实现的。HW压缩成一维后,相当于这一维参数获得了之前H*W全局的视野,感受区域更广。

  2. Excitation部分。得到Squeeze的11C的表示后,加入一个FC全连接层(Fully Connected),对每个通道的重要性进行预测,得到不同channel的重要性大小后再作用(激励)到之前的feature map的对应channel上,再进行后续操作。

在这里插入图片描述

<think>嗯,用户想了解ImageNet竞赛历届冠军和他们使用的技术。首先,我需要回忆一下ImageNet竞赛的历史,特别是每年的优胜者。ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 是从2010年开始的,到2017年结束。每年都有不同的团队获胜,他们使用的技术可能代表了当时计算机视觉领域的进步。 首先,2012年是个关键点,因为AlexNet那一年以深度学习方法大幅提升了成绩,引起了广泛关注。那之前,2010和2011年的冠军可能还在用传统的方法,比如SIFT和SVM的组合?比如2011年的获胜团队可能是采用更复杂的集成模型或者改进的特征编码方法? 接下来,2013年可能是ZFNet,这个模型在结构上对AlexNet进行了调整,比如改变卷积核大小和层数。然后是2014年,GoogLeNet和VGGNet,这两个模型在深度和结构上做了创新,比如Inception模块和更深的网络结构。2015年应该是ResNet,引入了残差连接,解决了深层网络训练的问题。2016和2017年可能会有进一步的改进,比如SE模块或者更高效的模型结构,比如SENet。 我需要确认这些年份和对应的模型是否正确。比如,2014年的冠军确实是GoogLeNet吗?或者是不是VGG?可能VGG在2014年获得了其他奖项,比如定位任务的冠军?需要查证具体细节,确保每个年份对应的模型和技术准确。 另外,用户可能还关心这些技术对后续研究的影响,比如ResNet如何影响了后来的模型设计。同时,用户提到的“历届冠军”是否包括所有任务的冠军,比如分类、检测、定位等,还是主要指分类任务?根据常见的情况,ILSVRC的主要关注点是在图像分类任务,所以可能重点放在分类任务的冠军上。 还有,用户可能想知道每个模型的关键创新点,比如AlexNet使用了ReLU和Dropout,GoogLeNet的Inception模块,ResNet的残差块等。需要简明扼要地总结这些技术,并说明它们的贡献。 此外,需要确保术语的准确性,比如正确使用模型名称(如VGG16,ResNet-152),并说明它们的结构特点。同时,注意引用格式,如果有引用的话,需要正确标注,但用户提供的引用可能不相关,需要忽略或适当处理。 最后,生成相关的问题,比如性能分析、技术演变、应用场景等,帮助用户深入理解。要确保问题与内容相关,能够引导用户进一步探索。</think>### ImageNet竞赛历届冠军技术回顾(2010-2017) #### 1. **2010-2011年:传统视觉方法** - **冠军技术**:基于手工设计特征(如$SIFT$、$HOG$)+ 支持向量机($SVM$) - **特点**:2011年获胜团队采用改进的稀疏编码方法,通过多尺度特征融合提升分类精度[^1]。 #### 2. **2012年:深度学习革命(AlexNet)** - **关键技术**: - 首次使用$ReLU$激活函数替代$Sigmoid$,缓解梯度消失 - 提出$Dropout$正则化方法 - 双GPU并行训练架构 - **效果**:将Top-5错误率从26%降至15.3%[^1]。 #### 3. **2013年:网络结构优化(ZFNet)** - **改进**: - 通过可视化反卷积网络改进AlexNet的卷积核设计 - 使用更小的$7 \times 7$卷积核 - **公式示例**:卷积运算可表示为: $$f(x,y) = \sum_{i=-k}^{k}\sum_{j=-k}^{k} w(i,j) \cdot I(x+i,y+j)$$ #### 4. **2014年:深度与模块化(VGGNet & GoogLeNet)** - **VGGNet**: - 16/19层网络,仅使用$3 \times 3$卷积核堆叠 - 证明网络深度的重要性 - **GoogLeNet**: - 引入$Inception$模块:$$Inception = [1 \times 1 \ conv, \ 3 \times 3 \ conv, \ 5 \times 5 \ conv, \ maxpool]$$ - 使用辅助分类器缓解梯度消失 #### 5. **2015年:残差学习(ResNet)** - **核心创新**:残差块结构 $$H(x) = F(x) + x$$ - **效果**:152层网络实现3.57% Top-5错误率,首次超越人类水平[^1]。 #### 6. **2016-2017年:模型轻量化与注意力机制** - **趋势**: - 使用$ResNeXt$的基数(cardinality)概念 - 引入$SE$(Squeeze-and-Excitation)模块: $$s = F_{ex}(z) = \sigma(W_2\delta(W_1z))$$
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI强仔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值