DF-LNPU:基于流水线直接反馈对齐的深度神经网络处理器解析

立即解锁
发布时间: 2025-09-01 01:51:09 阅读量: 23 订阅数: 25 AIGC
PDF

片上训练NPU设计与实现

# DF-LNPU:基于流水线直接反馈对齐的深度神经网络处理器解析 ## 1. DF-LNPU 整体架构 DF-LNPU 从宏观上可分为两个核心:两个零跳过卷积核(ZCCs)和一个基于 PDFA 的学习核(LC)。ZCCs 负责卷积层(CLs)的推理和训练,LC 则使用 PDFA 方法计算全连接层(FCLs)。 ### 1.1 PDFA 学习流程 当进行基于 PDFA 的学习时: 1. **误差计算**:EP 核计算前馈(FF)结果的损失并确定误差 δ(3,t)。 2. **误差传播**:中间层的误差由 DFA 算法生成,并传输到 GG 核。 3. **梯度计算**:GG 核计算相应神经元连接的权重梯度。 4. **数据收集**:GG 核以转置方式收集所有批量数据,如激活值和误差。 5. **权重更新**:GG 核的最终乘法结果被移动到权重更新单元(WUU)。WUU 从外部 DRAM 接收权重,并计算动量优化器以生成新的权重。 6. **推理执行**:新权重被传输到 FF 核,FF 核执行下一次迭代的推理。 ### 1.2 存储与数据处理 所有中间激活值和误差存储在输出内存(OMEM)中,OMEM 由 32 组 SRAM 组成,总大小为 160 KB。游程编码(RLC)解码器位于 OMEM 附近,FF 和 GG 核都接收解码后的激活值。在基于 PDFA 的学习之前,FCLs 的输入应被提取到 OMEM 中,输入数据可以直接从聚合核传输或从外部 DRAM 加载。在在线学习场景中,DF-LNPU 偶尔会将输入数据存储到 DRAM 中,并用于后续的 DNN 训练。 ### 1.3 功耗优化 LC 支持丢弃正则化,并利用时钟门控来最小化功耗。时钟门控方法与[123]相同。丢弃控制器从丢弃内存(DRMEM)接收丢弃指标,当 ReLU 激活函数的导数被反映时,丢弃指标可以被修改,这使得 ReLU 激活函数的 EP 成为可能。丢弃控制器在输出值被预测为零时防止功耗。在仅推理场景中,整体功耗降低了 23.1%;在在线学习中,可节省 16.4%的功耗。 ### 1.4 流水线设计 DF-LNPU 采用了核间和核内流水线设计: - **核间流水线控制器(Inter - core PC)**:负责管理 CL 计算和基于 PDFA 的 FC 计算的调度,以及 ZCC 和 LC 之间的数据事务。 - **核内流水线控制器(Intra - core PC)**:位于 LC 内部,管理三个不同学习核的调度。 ## 2. 异构学习核架构 ### 2.1 零跳过卷积层优化核 早期的 CNN 加速器专注于卷积操作的特性,最大化数据重用性。对于仅推理的情况,CNN 加速器的精度要求不严格,因此使用量化和基于查找表的计算以提高能源效率。但 DNN 训练的精度要求更严格,DF-LNPU 的卷积核最终采用 FP 8 位精度进行 MAC 操作。 由于大多数 CNN 使用 ReLU 激活函数,会导致输入激活值中出现许多零。DF-LNPU 采用了零跳过核设计,跳过与零值的乘法,提高了吞吐量和能源效率。零跳过卷积加速可使吞吐量提高达 3.34 倍,实现了 CLs 的高速计算。 ### 2.2 PDFA 全连接层学习核 LC 的核心架构专注于内存带宽优化。之前的 FC 优化推理加速器通过低比特量化解决 EMA 问题,但 DF-LNPU 由于片上学习功能不能使用低比特精度,而是采用输入稀疏感知激活编码方法。 FCLs 的训练仍然受到权重数据事务导致的大量内存访问的影响。传统的 FC 核由于权重重用性低,能源效率较低。而 DF-LNPU 的 LC 采用 PDFA 方法,实现了三个学习阶段的并行处理,优化了核心和数据路径,提高了面积和能源效率。 | 核心类型 | 特点 | 优势 | | ---- | ---- | ---- | | ZCC | 专注于通过有限数量的 MAC 提高吞吐量,最大化效率 | 提高 CLs 计算速度 | | LC | 采用 PDFA 学习方法,提高数据重用性和每带宽吞吐量 | 优化内存带宽,提高能源效率 | ### 2.3 双模式 GG 核 DF-LNPU 在基于 PDFA 的并行训练中实现了更高的能源效率,但在仅推理场景中效率较低。为解决这个问题,GG 核被设计为支持 GG 和 FF 阶段。在 PDFA 场景中,GG 核可用于权重梯度(WG)计算;在仅推理场景中,它可以计算 FF 阶段。双模式 GG 核使推理时的批量大小增加了 2 倍,DF-LNPU 在仅推理场景中也能实现 2 倍的权重重用性。 ## 3. 核间和核内流水线设计 ### 3.1 核间流水线设计 CL 的计算由两个 ZCCs 处理,FCL 的计算由 LC 负责。ZCC 和 LC 的工作量可能因网络配置、批量大小和迭代次数以及输入稀疏性等因素
corwn 最低0.47元/天 解锁专栏
买1年送3月
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

张_伟_杰

人工智能专家
人工智能和大数据领域有超过10年的工作经验,拥有深厚的技术功底,曾先后就职于多家知名科技公司。职业生涯中,曾担任人工智能工程师和数据科学家,负责开发和优化各种人工智能和大数据应用。在人工智能算法和技术,包括机器学习、深度学习、自然语言处理等领域有一定的研究
最低0.47元/天 解锁专栏
买1年送3月
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看

最新推荐

Eterm异常响应码解读大全:覆盖99%故障场景的15个高频错误代码解析

![eterm协议解析.xlsx,eterm基础指令](https://www.tecmint.com/wp-content/uploads/2022/02/ThinLinc-Linux-Remote_Server.jpg) # 摘要 本文系统研究了Eterm系统中异常响应码的生成机制、分类逻辑与典型故障处理方法。基于Eterm协议栈的通信架构,剖析了响应码的结构设计与状态机关联机制,构建了按故障层级和业务场景划分的分类体系。针对高频错误码如认证失败、会话无效、交易格式错误等,深入解析其成因并提出可落地的排查与优化方案。对于中高频率及复杂场景下的错误码,结合分布式架构特性,探讨了限流、消

跨模块依赖分析难题破解:基于CodeReader的调用链全景透视4法

![CodeReader:一行一行阅读代码](https://cf4.ppt-online.org/files4/slide/c/cf1HeNXK7jCvJPwayolSxn83q09DsEWgt6U2bz/slide-5.jpg) # 摘要 跨模块依赖的复杂性在现代多语言、微服务架构中日益凸显,导致系统维护难、故障定位慢与重构风险高。本文提出CodeReader核心理念,构建调用链全景的四大透视法:静态语法解析法、动态执行追踪法、语义关联推导法与构建产物反演法,从源码结构、运行时行为、隐式语义和编译产物多维度还原真实依赖关系。通过在多语言项目中的实践,验证了四大方法在依赖提取、可视化、

类别型变量编码深度解析:Label、One-Hot与Target Encoding的性能实测(附代码)

![Shanghai-Second-hand-House-Price-Prediction:数据挖掘课程项目(DATA620007)](https://img-blog.csdnimg.cn/20190110103854677.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zNjY4ODUxOQ==,size_16,color_FFFFFF,t_70) # 摘要 类别型变量编码是机器学习特征工程中的关键步骤,直

用户体验飞跃提升:icoFormat响应式UI设计+长时间操作进度反馈最佳实践

![icoFormat](https://static-prod.adweek.com/wp-content/uploads/2020/11/AI-logo-generator-PAGE-2020.jpg) # 摘要 本文系统探讨了响应式UI设计与用户体验之间的核心关系,提出icoFormat设计模式作为实现多端一致性的创新解决方案。该模式基于流体网格、断点设计与设备无关性原则,结合图标-内容-操作三位一体结构,支持动态缩放与语义层级保持。研究进一步构建了面向长时间操作场景的用户反馈机制,涵盖确定性进度条、不确定性指示器及多阶段任务状态管理,并在前端架构中实现与icoFormat的深度融

阻塞 vs 非阻塞任务提交:接口设计背后的性能权衡与场景选择建议

![阻塞 vs 非阻塞任务提交:接口设计背后的性能权衡与场景选择建议](https://img-blog.csdnimg.cn/d916543b06f54eb89cc5ef87b93c7779.png) # 摘要 本文系统探讨了阻塞与非阻塞任务提交机制在并发编程中的核心作用,从基本概念出发,剖析同步与异步、阻塞与非阻塞的本质区别及其在线程行为和执行模型中的体现。文章深入研究任务调度的关键性能指标及并发模型的支持机制,结合线程池、Future/Promise、Reactor与Actor等技术,分析阻塞与非阻塞在Java线程池、Spring异步注解和Netty框架中的具体实现。通过对比不同任

拉丁美洲与安第斯国家的弱可持续性发展分析

### 拉丁美洲与安第斯国家的弱可持续性发展分析 在当今世界,可持续发展已成为各国关注的焦点。特别是对于拉丁美洲和安第斯国家而言,如何在经济发展的同时兼顾环境和资源的可持续性,是一个亟待解决的问题。 #### 拉丁美洲弱可持续性指标 首先来看拉丁美洲部分国家的弱可持续性指标,以下是1900 - 2000年、1946 - 2000年、1970 - 2000年期间,阿根廷、巴西、智利、哥伦比亚和墨西哥的相关指标数据: | 国家 | 时间段 | NNS(%) | NNSRr(%) | GSCo2(%) | GS(%) | GSTFP(%) | GreenTFP(%) | | --- | ---

三维铁路场景构建:将二维SHP数据升维至CityEngine_Cesium环境(含坐标变换关键步骤)

![三维铁路场景构建:将二维SHP数据升维至CityEngine_Cesium环境(含坐标变换关键步骤)](https://dobim.es/wp-content/uploads/2023/03/nube-puntos-laser-portada-e1678632528443.jpg) # 摘要 三维铁路场景构建是智慧交通与数字孪生领域的重要技术方向,涉及地理信息处理、三维建模与跨平台可视化等多学科融合。本文以SHP数据为基础,系统阐述从二维矢量数据解析到三维铁路场景生成的全流程技术框架,涵盖坐标系统转换、高程融合、CGA规则建模及3D Tiles发布等关键环节。通过CityEngine

波浪耗散区设计精髓:UDF驱动阻尼层(Sponge Layer)的4种构建模式与参数优化

# 摘要 本文系统研究了波浪耗散区与阻尼层的物理机制及其在数值模拟中的实现方法,重点探讨了基于用户自定义函数(UDF)驱动的阻尼层理论建模与工程应用。通过构建Navier-Stokes方程中的源项模型,分析了四种典型阻尼函数的数学特性及其对能量耗散效率的影响,并揭示了阻尼区域长度与网格分辨率之间的耦合关系。进一步提出了四种UDF实现模式,涵盖速度反馈、人工粘性增强、松弛耦合与多尺度吸收机制,结合敏感性分析与反射率评估体系优化关键参数。最后通过数值实验验证了不同模式在抑制非物理反射方面的有效性,为高精度流场仿真提供了可靠的技术路径。 # 关键字 阻尼层;UDF;Navier-Stoke

【高阶CMK实战】:复杂工艺下动态CMK模型构建的4大挑战与应对策略

![【高阶CMK实战】:复杂工艺下动态CMK模型构建的4大挑战与应对策略](https://media.licdn.com/dms/image/D5612AQE3z2Uo9h0v4w/article-cover_image-shrink_600_2000/0/1697489531148?e=2147483647&v=beta&t=-54zNXVxO-HErCsCRwgfl2O5CQkzE0gh6ZJtQSVgiYE) # 摘要 高阶CMK技术作为衡量制造过程能力的核心工具,正从静态评估向动态化、智能化演进。本文系统阐述了动态CMK模型的理论基础与建模框架,深入解析过程能力指数的数学原理及

多通道RS编解码系统设计:基于多个rs_decoder_ipcore并行架构的3种实现方案

# 摘要 本文围绕多通道RS编解码系统的设计与优化展开,系统阐述了RS码的数学基础、编码机制及解码算法核心流程,重点分析了Berlekamp-Massey算法、Chien搜索与Forney公式的实现原理,并深入剖析了rs_decoder_ipcore的功能模块与可配置性。针对多通道并行需求,对比了完全独立架构、共享控制逻辑结构及分时复用流水线混合架构的设计策略与性能权衡。在FPGA硬件平台上,研究了多IP核布局布线、数据通路优化与功耗资源调优等协同优化技术,提升了系统吞吐量与能效比。通过搭建误码率测试平台验证了系统的纠错能力,并探讨了其在卫星通信与高速光纤链路中的应用前景及未来向动态重构与