完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>
|
上来先来几个专有名词: ANN:人工神经网络 SNN:脉冲神经网络 DNN:深度神经网络 神经网络设计灵感都是来自人类的大脑结构,都是由神经元组成的层和连接不同层的突触组成。层数、每层的神经元数和突触连接定义了神经网络的拓扑结构。 不同神经网络的DNN: 一、基于大模型的AI芯片 1、Transformer 模型与引擎 1.1 Transformer 模型概述 Transformer 模型的出现彻底改变了自然语义处理的研究和应用。它引入了自注意机制和位置编码,能够有效的捕捉输入序列中的关联信息,实现更好的上下文理解和建模。 Transformer 模型由一个编码器和一个解码器组成,是一种基于注意力机制的神经网络结构。该模型将计算资源集中在对任务真正具有价值的关注焦点,使用于大规模并行处理任务,专为在GPU上进行处理而设计。
Transformer 模型的核心思想是自注意机制。 举例: 解码器的多头注意机制: GPT就是个最好的例子,展现了Transformer 模型的威力。 1.2 Transformer 引擎 Transformer 引擎能够随启发式程序在不同的格式之间进行动态切换,显著提高Transformer 模型的训练速度。 为了优化计算和存储效率,Transformer 引擎使用张量统计得出的扩展因子,动态的将张量数据扩展到可表示的范围内。这种方法确保了在保持必要精度的同时,能够利用更小、更快的数字格式,提升模型的整体性能。
1.3Transformer 模型中的矩阵乘法计算 2、存内计算AI芯片 存内计算已经成为应对大模型不断增加的计算量和能耗需求、减少大模型性能瓶颈的可行方案。基于非易失性存储器(NVM)的存内计算基元非常适合这种应用,它提供了高存储密度,便于进行大规模并行矩阵-向量乘法运算。 2.1 忆阻器与CMOS器件混合芯片 基于NVM的存内计算有两方面的问题:①Transformer 模型需要向NVM器件写入大量数据。②传统内存加速器的时序单指令多数据流通通道实现这些操作的成本很高。 因此设计一种既能有效存储模型参数,又能让动态矩阵乘法运算的时间缩短、效率提升的硬件架构非常重要。因此存内加速方案,X-Former应运而生。它是一种混合存内计算架构,结合了NVM和基于互补金属氧化物半导体(CMOS)的处理元件。 架构如下: 2.2 闪存AI计算 闪存的新颖方法代表了一种多用途的管理模型权重的策略,它根据输入的性质提升性能,从而增强所提出的方案在各种大模型场景中的有效性、可用性和实用性。
3、基于GPU的大模型计算 3.1 简化Transformer 模型 通过简化Transformer 模型而不影响其收敛性能和下游任务性能来加速GPU中的Transformer 网络。简化Transformer 模型在GPU上的训练吞吐量提升了10%,使用的参数减少了15%。 3.2 LighrSeq2 LighrSeq2 提出了三种加速Transformer模型训练的技术。 ①针对所有的Transformer模型,LightSeq2将融合的内核运算符用于编码器层和解码器层。 ②LightSeq2采用了混合精度更新进行训练。 ③LightSeq2推出了加速整个Transformer训练过程的方案。 4、基于FPGA的大模型计算 4.1加速矩阵乘法的新型架构 基于Transformer模型的高性能FPGA加速器。 4.2基于常微分方程的加速 5、基于ASIC的大模型计算 5.1 Sanger 5.2 Energon 6、Transformer 模型的后继者 二、用创新方法实现深度学习AI芯片 1、基于开源RISC-V的AI加速器 RISC-V是一种开源、模块化的指令集架构(ISA)。优势如下: ①模块化特性 ②标准接口 ③开源 1.1 RISC-V ISA 扩展 1.2 向量协处理器 1.3 与各级存储耦合的NPU 1.4 针对Transformer 模型的架构优化 SwiftTron是一款专用的开源AI加速器,用于量化Transformer和视觉Transformer模型。 ViTA是一种高效数据流AI加速器,用于在边缘设备上部署计算密集型视觉Transformer模型。 2、射频神经网络 2.1 线性射频模拟处理器的原理 2.2 线性射频模拟处理器的原型与概念验证 3、光电组合AI芯片 目前最好的应对Transformer模型需要的极高算力的方法之一就是使用光子计算芯片来代替基于CMOS的芯片。 光电组合AI芯片的创新点是将光和电结合,输入输出向量的时间由数字域的电子电路管理,以实现级联和把MVM加速并行化的灵活性,因此可执行多级MVM。 4、 量子AI芯片 4.1 量子AI的前景 量子AI主要包括两个研究方向: ①用量子计算来加速经典数据的学习 ②把量子计算应用于量子数据的学习。 4.2 量子计算机的硬件实现方法与进展 ①量子点法 利用硅原子中的电子,通过在硅或者砷化镓等半导体材料上制备门控量子点来编码量子比特。 优点:可扩展性好,且与成熟的CMOS工艺兼容,易于集成,无须大型冷却装置即可运行。 缺点:电子自旋易受电磁场影响,难以控制量子比特。 ②超导法 利用超导环路,其中电流可以同时流向左右两个方向。 优点:易于构建系统、可高速运行。 缺点:易受噪声影响,需大型冷却设备。 ③栗子阱法 利用了悬浮在空气中的离子上的电子。 优点:相干时间长,具有稳定的量子比特状态,可在室温下运行。 缺点:门操作速度不快、难以集成。 ④中性原子法 利用激光控制中性原子,通常需要再超低温下运行,也被称为超冷原子法。 优点:量子比特稳定 缺点:难以集成 ⑤光子法 利用光子的偏振(光波的振荡方向),使用单光子或者光压缩态的多种自由度进行量子态编码和量子比特构建。 优点:受环境影响小、抗噪声、相干时间长,可在室温下运行。 缺点:由于光子损耗,误差率高,难以集成。 ⑥金刚石色心法 利用金刚石中一种特殊形式的色心--氮空位中心(NV中心)的自旋来进行量子计算。NV中心是由一个氮原子取代金刚石晶格中的一个碳原子并且邻近位置缺失一个碳原子构成的。 ⑦挤压光法 利用了强度或者相位受到最小可能波动的光。 5、矩阵乘法计算加速器 5.1 加速矩阵乘法的算法 ①矩阵乘法的各种算法 ②优化矩阵乘法过程的新方法 ③加速矩阵乘法的新算法 1)用学习替代乘法 2)用加法代替矩阵乘法 3)只用加法的大模型计算 4)用深度强化学习发现和创建矩阵乘法最优算法 5.2加速矩阵乘法的芯片架构 ①新的矩阵乘法器架构 ②基于RISC-V的矩阵乘法扩展指令集 ③用信息论的思想来减少AI推理计算量 三、用于边缘侧训练或推理的AI芯片 1、边缘AI训练 2、Transformer 模型边缘部署 3、智能手机AI芯片 3.1概述 智能手机中最大的一块芯片就是应用处理器(AP)。AP中集成了CPU、GPU、NPU、DSP、5G调制解调器、图像信号处理器以及显示处理、音频处理、安全处理等硬件子系统。 3.2 智能手机芯片与大模型的相互适应 3.3 多个AI处理核的智能手机AI芯片 4、 边缘侧的4种AI终端设备 4.1 AI手机 4.2 AI PC 4.3 AI汽车 4.4 AI无人机 5、极低功耗的AI芯片 三种针对边缘AI开发的算法,均满足极低功耗的要求,耗电保持在毫瓦级、甚至亚毫瓦级。 5.1 DSCNN 5.2 A-DSCNN 5.3 Painissimo |
|
相关推荐
|
|
7160 浏览 10 评论
1349 浏览 0 评论
【书籍评测活动NO.67】成为硬核Linux开发者:《Linux 设备驱动开发(第 2 版)》
7402 浏览 16 评论
【高速数字设计(基础篇)】阅读体验之一--书籍排版设计和目录架构及初步阅读
3536 浏览 0 评论
2581 浏览 0 评论
电子发烧友网
电子发烧友论坛
/9
小黑屋| 手机版| Archiver| 电子发烧友 ( 湘ICP备2023018690号 )
GMT+8, 2025-12-14 18:11 , Processed in 0.478649 second(s), Total 38, Slave 29 queries .
Powered by 电子发烧友网
© 2015 bbs.elecfans.com
关注我们的微信
下载发烧友APP
电子发烧友观察
版权所有 © 湖南华秋数字科技有限公司
电子发烧友 (电路图) 湘公网安备 43011202000918 号 电信与信息服务业务经营许可证:合字B2-20210191

淘帖
2364