Non-Deep-Networks——12层的浅层网络表现如何

这篇NeurIPS2022论文探讨了在安全关键系统中,如何通过构建非深度神经网络如ParNet来降低延迟,同时保持高性能。它介绍了ParNet架构,一种并行子网络设计,能在12层深度下达到ImageNet上80%以上的准确率,展示了在低深度下实现高性能的可能性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

介绍一篇发表2022在年第36届神经信息处理系统会议(NeurIPS)论文,题目是non-deep-networks该论文讨论了在安全关键系统中延迟的重要性,并探讨了构建高性能的“非深度”神经网络的可能性

Non-deep Networks | Papers With Code

一、首先我们来了解一下背景

  1. 故事
    • 安全关键系统中延迟的重要性毋庸置疑。对于需要实时预测的系统,如高速自动驾驶汽车,在非常短的时间窗口内做出反应是确保安全性的关键。由于深度神经网络(DNNs)是许多智能系统的核心,因此考虑DNNs的延迟是至关重要的。
    • 在DNN中,最低可达到的延迟是d/f,其中d是网络的深度,f是处理器的频率。尽管在通用处理器(如GPU)上很难实现这个极限,但对于实际应用,可以构建定制芯片以接近理论延迟。这种延迟限制也适用于具有大量FLOPs或带宽的未来硬件。
    • 在这种情况下,只能通过减少深度或增加频率来改善延迟。然而,值得探讨的是是否可以通过“非深度”神经网络实现高性能。
  2. 论文还探讨了领域内的相关工作。
    • 灵感来自于,Zagoruyko和Komodakis的Wide Residual Networks,该工作表明通过增加通道数可以在限制深度的同时,提高性能。作者从这些工作中获得启发,并通过在深度为10左右的范围内实现高性能来推动研究前沿。
    • 存在丰富的研究文献分析了深度在神经网络中的重要性。
    • 先前的研究主要关注线性顺序结构的浅层网络。
    • 本文采用并行分支、VGG风格模块和Skip-Squeeze-and-Excitation等技术来降低深度并保持高性能。
    • 在扩展神经网络方面,通过增加分支数量、宽度和分辨率来有效地扩展ParNet,同时保持较低的深度。
  3. 论文提出了一种名为ParNet(Parallel Networks)的架构,通过使用并行子网络而不是顺序堆叠层来减少网络的深度。这种方法在保持高性能的同时降低了网络的深度。作者展示了ParNet的有效性,并在多个基准数据集上取得了令人瞩目的结果。
    • 论文首次展示了一个仅有12层深度的分类网络在ImageNet上可以达到超过80%的top-1准确率,在CIFAR10上达到96%的准确率,在CIFAR100上达到81%的准确率。此外,作者还展示了一个具有低深度(12层)骨干网络在MS-COCO上可以达到48%的平均精度(AP)。这些结果表明,通过并行子结构,即使在较低的深度下,也可以实现高性能的非深度网络。
    • 论文还讨论了ParNet的扩展规则,即如何通过增加宽度、分辨率和分支数量来有效扩展网络,同时保持深度不变。作者观察到,随着计算吞吐量的增加,ParNet的性能也在不断提高。这意味着在保持较低深度和低延迟的情况下,可以实现更高的性能。
  4. 贡献
    • 首先,我们首次表明,深度仅为 12 的神经网络可以在具有竞争力的基准测试中实现高性能977367e99d3c438694892ed4d0bd4991.png
    • 其次,我们展示了如何利用并行分支、VGG 风格块和 Skip-Squeeze-and-Excitation 等不同架构选择来降低深度,同时保持高性能。
    • 第三,我们研究了 ParNet 的扩展规则,并演示了在深度不变的情况下如何有效扩展。
  5. 总结起来,该论文提出了一种构建高性能非深度神经网络的新方法,并深入探讨了在安全关键系统中深度、性能和延迟之间的权衡。通过实验证明,在特定条件下,通过使用并行子结构,可以实现令人满意的性能,同时降低网络的深度,从而减少延迟。论文还讨论了与深度有关的其他问题,并对未来的研究方向进行了展望。

二、整个框架的实现方法

  1. 图1展示了不同模型的 ImageNet Top-1精度与深度的关系。图2展示了ParNet和ParNet块的示意图。90ba85ed6bc941fa9bc54bdcef47d5b7.png
  2. 并行子网络(Parallel Subnetworks):传统的深度神经网络是将各个层按顺序堆叠在一起的,而ParNet采用了并行子网络的设计。
    • 相比于串行结构,通过并行子网络可以有效地减少网络的深度,同时保持高性能。
    • 这种并行结构的设计使得仅具有12层深度的网络在ImageNet数据集上能够达到超过80%的top-1准确率,在CIFAR10和CIFAR100数据集上的准确率分别达到96%和81%。这是首次展示了在如此低的深度下实现如此高的性能。
  3. VGG风格块(VGG-style Blocks):
    • 相比于ResNet风格的块,论文中发现VGG风格的块更适合用于减少网络的深度。VGG风格块具有更少的层级,可以在减少深度的同时保持高性能。
    • 但是训练 VGG 风格网络比训练 ResNet 风格网络更困难(He 等人,2016a),怎么解决?
      • 使用了来自 RepVGG Ding 等人(2021 年)的 "结构重参数化"(structural reparameterization)。
  4. Skip-Squeeze-and-Excitation(SSE):为了增加网络的感受野而不增加深度,论文引入了一种变体的Squeeze-and-Excitation(SE)模块,称为Skip-Squeeze-and-Excitation。这个模块通过跳过一些层级来增加网络的感受野,从而提高了网络的性能。
    • 和旧的有什么区别?
      • 这个模块通过跳过一些层级来增加网络的感受野,从而提高了网络的性能。
  5. 缩放规则(Scaling Rules):论文还研究了ParNet的缩放规则。
    • 研究表明,通过增加宽度、分辨率和子网络的数量,可以有效地扩展ParNet的规模,同时保持网络的低深度。
    • 实验结果显示,ParNet的性能随着计算吞吐量的增加而提高,这意味着通过进一步增加计算量,可以在保持低深度(约为10)和低延迟的情况下实现更高的性能。

三、对于框架的评估

  1. 数据集选择:作者在评估ParNet的性能时使用了几个常用的计算机视觉数据集,包括ImageNet、CIFAR10、CIFAR100和MS-COCO。这些数据集广泛用于评估图像分类和目标检测任务的性能。
  2. 训练设置:对于图像分类任务,作者使用了标准的训练配置,包括随机水平翻转、随机裁剪和颜色增强等数据增强技术。对于目标检测任务,作者使用了基于单阶段检测器的ParNet作为骨干网络,并进行了端到端的训练。
  3. 性能指标:作者使用了常用的性能指标来评估ParNet的性能。对于图像分类任务,使用top-1准确率作为评估指标。对于目标检测任务,使用平均精度(AP)作为评估指标。
  4. 与现有模型的比较:为了评估ParNet的性能,作者将其与其他已有的深度网络模型进行了比较。论文中提到了一些先前的模型,包括ResNet、Wide Residual Networks等。通过与这些模型的性能进行比较,可以评估ParNet在低深度下的性能优势。
  5. 缩放规则的验证:为了验证ParNet的缩放规则,作者对不同的缩放参数进行了实验,如增加宽度、分辨率和子网络的数量。通过比较不同参数设置下的性能,可以验证缩放规则的有效性。
  6. 实验结果和分析:作者通过实验结果对ParNet的性能进行了详细分析,包括不同深度下的准确率、参数数量的比较、不同缩放参数的性能变化等。同时,作者还对ParNet在不同数据集上的表现进行了比较和讨论,以展示其在图像分类和目标检测任务中的性能优势。
    1. 图像分类任务(ImageNet、CIFAR10和CIFAR100):
      1. 使用ParNet,仅具有12层深度的网络在ImageNet数据集上实现了超过80%的top-1准确率。
      2. 在CIFAR10数据集上,同样的12层深度的网络达到了96%的准确率。
      3. 在CIFAR100数据集上,12层深度的网络实现了81%的准确率。
    2. 目标检测任务(MS-COCO):
      1. 使用ParNet作为骨干网络,具有低深度(12层)的网络实现了48%的平均精度(AP)。

四、应用、拓展、不足之处

  1. 这个框架可以很广泛的应用,
    1. 作者将提出的ParNet架构应用于图像分类和目标检测任务,并取得了令人满意的性能。该架构在ImageNet、CIFAR10和CIFAR100等数据集上都取得了较高的准确率。此外,对于目标检测任务,在MS-COCO数据集上,仅具有深度为12的骨干网络的ParNet也取得了不错的平均准确率。
  2. 拓展
    1. 论文提到了一些拓展和改进ParNet的潜在方向。首先,作者指出ParNet可以通过增加宽度、分辨率和分支数量来进行有效扩展,同时保持较低的深度。这意味着通过增加计算能力,可以进一步提高性能,同时仍保持较低的深度和低延迟。
    2. 此外,论文还提到了一些可能的改进方向。例如,结合其他架构选择和技术,如ResNet风格的块,在进一步减少深度的同时保持高性能。另一个可能的方向是进一步研究并优化ParNet的规模化规则,以实现更好的性能和可扩展性。
  3. 然而,论文也指出了ParNet的一些局限性。尽管ParNet在深度较小的情况下表现出了很好的性能,但它仍然需要更多的研究和实验来验证其在更复杂任务和更大规模数据集上的适用性。此外,论文中也没有深入探讨ParNet相对于其他深度网络的优势和劣势,以及在实际应用中的可行性和可靠性。比如在审议过程中,就被编辑提及深度虽然降低,但是参数量却没有减少,以至于性能提升不佳。

<think>嗯,用户这次想了解"Intel Non-Deep Sx Platform"的具体含义和技术说明。这个问题涉及到Intel处理器的电源管理技术,属于比较专业的硬件知识领域。 从用户提问的精准表述来看,ta应该具备一定的计算机硬件基础,可能是系统工程师或固件开发人员。用户特意强调要"技术说明",说明需要的是专业级解释而非科普性内容。 关于Non-Deep Sx这个概念,我需要从ACPI电源状态说起。在ACPI规范中,Sx代表睡眠状态(Sleep State),其中S0是正常工作状态,S3(挂起到内存)和S4(挂起到磁盘)属于Deep Sleep状态。而Non-Deep Sx特指S0ix这类浅睡眠状态,这是Intel在Skylake架构后引入的新特性。 关键技术点在于:S0ix通过将系统划分为不同电源岛,在CPU空闲时仅保持必要组件的供电。与S3不同,S0ix状态下内存控制器仍保持工作,因此唤醒延迟极低(毫秒级)。Intel的Modern Standby技术正是基于此实现的。 用户可能还想知道实际应用场景:这种技术常见于需要即时唤醒的设备,比如二合一笔记本电脑的即时唤醒功能,或者工业控制设备的快速响应需求。不过要注意,启用此功能需要硬件(PCH和CPU支持)和软件(OS支持Modern Standby)的协同配合。 考虑到用户的技术背景,后续可以进一步讨论S0ix状态下的功耗基准值,或者不同CPU世代对S0ix的实现差异。如果用户涉及固件开发,可能还需要了解如何通过ACPI表配置电源岛策略。</think>Intel Non-Deep Sx Platform 是一种针对特定低功耗场景优化的电源管理技术,主要应用于对功耗敏感且需快速唤醒的设备。以下是其核心含义与技术说明: --- ### **一、基本概念** 1. **Sx状态定义** ACPI规范中,**Sx** 表示系统睡眠状态(Sleep State),常见级别包括: - **S3 (Suspend-to-RAM)**:内存保持供电,其他组件断电,唤醒较快(~1秒) - **S4 (Suspend-to-Disk)**:系统状态保存到硬盘,完全断电,唤醒较慢 - **S0ix (Modern Standby)**:Intel提出的浅睡眠状态,属于 **Non-Deep Sx** 范畴 2. **Non-Deep Sx 本质** 指系统在空闲时进入 **S0ix** 而非传统深度睡眠(S3/S4),在极低功耗下维持关键功能(如网络连接、后台任务),实现 **"瞬间唤醒"**(毫秒级响应)。 --- ### **二、技术原理** 1. **电源岛划分** 将系统划分为独立供电区域(如CPU、外设、网络模块),空闲时仅维持必要模块运行: ```plaintext ┌───────────────┐ │ CPU Cores │ ────► 深度休眠 (C10状态) ├───────────────┤ │ 网络/传感器模块 │ ────► 保持活动 (监听事件) └───────────────┘ ``` 2. **硬件协同优化** - **PCH (平台控制器枢纽)**:管理设备唤醒事件路由 - **SoC 集成电源控制**:采用FinFET工艺降低待机漏电流 - **Intel® Low Power Engine**:专用微控制器处理后台任务 3. **软件栈支持** ```mermaid graph LR A[应用] --> B(Windows Modern Standby) B --> C[ACPI 固件] C --> D[Intel PCH 电源管理] D --> E[CPU/SoC 硬件状态切换] ``` --- ### **三、关键特性** | 特性 | Non-Deep Sx (S0ix) | 深度睡眠 (S3/S4) | |---------------------|-------------------|----------------| | 唤醒延迟 | < 500毫秒 | > 1秒 | | 后台任务支持 | ✓ (邮件/消息同步) | ✗ | | 功耗范围 | 5-100mW | < 5mW | | 硬件要求 | 需Intel第8代+平台 | 通用x86平台 | --- ### **四、应用场景** 1. **始终连接设备** - 二合一笔记本:开盖即用,即时响应 - 工业平板:传感器数据持续采集 2. **物联网边缘设备** - 低功耗网关:维持网络心跳包 3. **医疗手持终端** - 瞬间唤醒执行紧急操作 --- ### **五、开发要求** 1. **硬件** - 需支持 **Intel Low Power Subsystem** 的SoC(如Tiger Lake/U系列+) - 外设需兼容 **Connected Standby** 规范 2. **固件** - 实现 **ACPI _DSM** 方法控制电源岛 - 配置 **Global Reset** 事件路由表[^1] 3. **驱动** 所有设备驱动需通过 **Windows Hardware Lab Kit** 的电源合规测试 > ⚠️ **注意**:启用此模式需严格验证外设功耗,不良驱动可能导致"睡眠蠕变"(Sleep Creep)——系统因频繁唤醒实际功耗反增。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

川弥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值