自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(127)
  • 收藏
  • 关注

原创 ISSCC 14.5 支持浮点转置的SRAM-CIM阵列

本文提出了一种面向边缘AI训练的高性能计算内存架构,采用28nm工艺实现192.3TFLOPS/W能效。创新性包括:1)循环权重映射6T-SRAM阵列,实现阵列内权重转置和MAC电路复用;2)支持多种数据格式的数字CIM架构;3)精准/近似双模位并行MAC电路。该架构通过循环移位存储、动态激活对齐和共享运算单元,解决了传统转置CIM方案的硬件冗余问题,同时采用带符号定点尾数编码策略支持浮点运算。测试显示其FP8格式在能效和精度间取得良好平衡,为边缘设备提供了高效的训练解决方案。

2025-07-16 11:07:56 875

原创 第二十一届全国容错计算学术会议(CCF CFTC 2025)将于7月18日至20日在杭州举行

中国计算机学会容错计算专业委员会将于2025年7月18-20日在杭州举办第二十一届全国容错计算学术会议(CCFCFTC2025)。会议将围绕芯片、系统、软件等层面的容错技术展开研讨,预计吸引800余名专家学者,通过技术报告、论文分享等形式探讨前沿进展。知存科技创始人王绍迪将作《大语言模型的存内计算加速》主题报告,同时公司将携“天才博士计划”亮相。会议由CCF主办,北京邮电大学等单位承办,旨在推动我国容错计算领域发展。

2025-07-15 14:37:54 389

原创 JOS论文详解:28nm RRAM模拟存内计算芯片工作

清华大学集成电路学院吴华强教授团队在《Journal of Semiconductors》发表了一项基于RRAM的存内计算芯片研究。该研究针对传统存内计算方案忽视数据写入效率的问题,提出了三大创新:1)混合1T1R/2T2R编程方案,将编程速度提升2.5-4.3倍;2)无运放、读写复用的双开关直流ADC,品质因数提升2.6-3.8倍;3)分段字线结构,实现精细控制。测试表明,该576K单元芯片在28nm工艺下达到2.82TOPS/mm²的面积效率,混合编程模式在速度、功耗和准确性方面均优于传统方案。这一成果

2025-07-11 11:51:54 521

原创 这个夏天属于黑客松,邀请全世界最疯狂的 Builders

Hello World,迄今为止中国规模最大的黑客松Adventure X回归,2024年,属于年轻人的第一场Adventure X黑客松吸引了2300人参与。2025年,Adventure X和小红书一起,邀请你【用创造改变世界,哪怕1%】

2025-07-10 17:26:35 292

原创 存算一体这些岗位招人啦!知存科技2025火热招聘中

企业就业机会直通车:知存科技提供行业顶尖待遇,广阔发展前景,优质工作环境,存算一体,工艺制程,硬件架构,AI算法,等你来

2025-07-08 17:45:30 769

原创 ISSCC 25 14.6论文详解: 《A 28nm 64kb Bit-Rotated Hybrid-CIM Macro with an Embedded Sign-Bit-Processing Ar

东南大学司鑫团队在ISSCC2025提出了一种创新的混合存内计算宏芯片,采用位旋转特征输入方案、嵌入式符号位处理技术和多比特融合双粒度协同量化器,有效解决了传统混合存内计算的精度损失、性能损失和面积开销问题。该芯片在28nm工艺下实现了67.8TOPS/W的高能效,在图像分类、视觉Transformer和自然语言处理等AI任务中精度损失均低于2%。与现有方案相比,该设计在硬件综合性能指标上提升显著,代表了混合存内计算技术的重要突破。

2025-07-03 16:20:12 900

原创 ​存算一体开发者社区正式上线!重塑 AI 硬件未来,开启算力革命新坐标

 当数据洪流遭遇算力瓶颈,存算一体技术正以破局者之姿重构 AI 硬件的未来图景。今天,国内首个聚焦存算一体技术的开发者生态阵地 ——存算一体开发者社区正式上线!这里不仅是技术研发的前沿阵地,更是构建「技术研发 - 产学研协同 - 人才成长」全链路生态的核心枢纽,邀你一同在算力革命的浪潮中抢占开发新坐标!

2025-06-24 17:23:49 677

原创 论文解析:Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

大语言模型(LLMs)的快速规模化暴露了当前硬件架构在内存容量、计算效率、互联带宽的瓶颈。DeepSeek-V3通过硬件感知的模型协同设计,在2048块NVIDIA H800 GPU上实现了低成本大规模训练与推理。随着集群规模的指数级增长,硬件的鲁棒性与可靠性对于大模型将愈加重要。

2025-06-20 17:07:15 628

原创 “洞见AI未来“主题正文:深度解读Mary Meeker 2025年度AI技术报告

该报告围绕人工智能(AI)技术的爆发式增长及其对全球科技、经济、社会的颠覆性影响展开,其指出,AI 不仅是技术革命,更将重塑全球地缘政治与经济格局,与之带来的商业化与伦理挑战也仍需长期观察。商业分析报告:需引用文档数据(如 “AI 训练算力 15 年增长 360%/ 年”),结合至少 3 个案例展开分析。技术验证论文:基于开源大模型(如Llama 3、Stable Diffusion等)的技术验证与实验分析。深入解读报告中的关键技术趋势(如Agentic AI、AI Native应用)。

2025-06-16 15:35:35 437

原创 【精彩回顾.上海交通大学专场】---大模型推理需求下的计算生态链变革

2025 年 6 月 6 日,由存算一体开发者社区与上海交通大学联合主办的 “大模型推理需求下的计算生态链变革” 专场活动在上海交通大学闵行校区顺利举办。本次活动汇聚了算能、OpenDataLab、知存科技、天翼云等企业专家,围绕大模型时代的算力架构创新、数据生态构建及产业实践展开深度探讨,推动产学研用协同发展。

2025-06-09 15:12:03 856

原创 GTC2025——英伟达布局推理领域加速

英伟达GTC2025大会于2025年3月18日在美国加州圣何塞举行,NVIDIA CEO黄仁勋在会上展示了公司近年来的成就,并提出了通过纵向扩展(scale up)和横向扩展(scale out)解决推理问题的未来布局。GTC大会自2009年起每年举办,已成为AI、深度学习、高性能计算等领域的重要技术发布和交流平台。黄仁勋强调,AI已进入代理AI阶段,算力需求依然强劲,尤其是推理能力在端侧的重要性。英伟达推出了Dynamo和CPO两项关键技术,提升token产出的效率以及优化成本。

2025-05-12 17:56:44 769

原创 ISSCC 25 14.4 性能达51.6TFLOPs/W的全数据路径存内计算宏单元,逼近稀疏性极限,应用于复合人工智能时损失低于2-30

本文由清华大学尹首一团队的Zhiheng Yue和Xujiang Xiang撰写,发表于2025年IEEE国际固态电路会议(ISSCC),探讨了复合AI模型在端侧部署时面临的挑战,并提出了三项创新解决方案。首先,文章指出复合AI模型虽然降低了参数量,但由于多个模型特征交融,传统基于单一模型的简化方法失效,导致精度损失和功耗增加。针对这些问题,作者提出了后置乘积对齐、全通路存内计算和稀疏捕获三项技术。

2025-05-12 15:07:15 786

原创 ISSCC 25 14.3论文详解:面向卷积神经网络与 Transformer 的 28 纳米、17.83 - 62.84TFLOPS/W 广播对齐浮点存内计算宏单元

东南大学司鑫教授团队在ISSCC 2025上发表了一篇关于存内计算(CIM)的论文,提出了一种新型的广播对齐非二进制补码浮点存内计算宏(B-A-N2CMAC FP-CIM)。该研究针对高精度和高能效边缘AI芯片的需求,解决了传统浮点计算中的精度损失、性能损失和面积开销问题。通过创新的广播输入、嵌入式区域高效自适应对齐方案和格式混合的N2CMAC,该芯片在28nm工艺下实现了64kb的B-A-N2CMAC FP-CIM宏,支持BF16和INT8两种数据类型。

2025-05-12 14:56:17 1140

原创 第二届知存科技杯华东专项赛开启!挑战AI创新,赢取高额奖金与荣誉!

第二届知存科技杯华东专项赛正式启动!本次竞赛由知存科技联合浙江大学、复旦大学、上海交通大学,南京大学顶尖高校共同举办,面向计算机、微电子及芯片相关专业的本硕学生(本科生优先),提供实践与创新的舞台。无论你是算法优化达人,还是硬件设计高手,这里都有属于你的赛道!

2025-04-30 15:54:14 288

原创 复旦大学发布全球首款二维半导体芯片——无极

图2展示了RV32-WUJI的整体结构,包括其在4英寸蓝宝石晶圆上的布局(图2a)、芯片的物理层结构(图2b)、典型逻辑门单元的SEM图像(图2c)以及晶体管沟道区域的扫描电子显微镜图(图2d)。他们在4英寸二硫化钼(MoS2)晶圆上,利用与主流硅基CMOS工艺兼容的顶栅晶体管结构和四层金属互连技术,成功集成了超过5900个MoS2晶体管,构建了一个能够执行标准RISC-V 32位整数指令集(RV32I)的微处理器原型RV32-WUJI,在器件工艺协同优化、从晶体管到电路、新的电路架构三方面取得重要突破。

2025-04-29 17:34:29 1303

原创 存内计算开发者社区第一季主题征文结果公布

2025年,人工智能(AI)技术正迎来新一轮的爆发式增长,尤其是AI Agent(人工智能代理)和具身智能(Embodied Intelligence)等前沿领域,正在重塑全球科技生态。具身智能则通过将AI与物理世界结合,赋予智能体感知、理解和交互的能力,开启了AI与人类协作的新篇章。为探索2025年AI技术的最新趋势,推动学术与产业界的深度交流,CSDN存内计算开发者社区特发起本次文稿征集活动,邀请广大开发者、研究者及技术爱好者,共同解读AI Agent、具身智能等前沿技术的现状、挑战与未来发展方向。

2025-04-16 16:08:42 437

原创 华为磁电融合MED vs 铁电/闪存:存储技术新赛道!

这项技术融合了固态硬盘 (SSD)的高速度和磁带存储的大容量的优势,旨在大幅降低数据中心存储的成本和功耗,并为应对 AI 时代的海量数据存储需求提供更优解决方案。华为 MED 存储的推出,正值数据中心面临海量数据存储和绿色节能双重挑战的关键时期。从电存储 (闪存、铁电存储)、磁存储到磁光电融合存储,数据存储技术不断演进,以适应不断增长的数据量和多样化的应用需求。得益于磁电融合的技术特性,华为 MED 存储展现出显著的优势,尤其在。未来,随着技术的不断成熟和应用场景的拓展,我们有理由相信,

2025-04-02 15:14:39 1184

原创 ISSCC 2025 14.2 一款16nm, 216kb, 188.4TOPS/W, 133.5TFLOPS/W的微缩放多模式增益单元存内计算宏单元边缘人工智能设备

在神经网络的实际应用中,ADT(AdderTree,ADT)的输入数据往往不是完全随机的,而是存在一定的统计特性。在软硬件协同优化方面,研究团队提出了SS-VAF技术,通过在CIM内部实现FP2MX和SS处理,并结合方差信息提升输入尾数的稀疏性,有效降低了数据传输开销和计算能耗,克服了传统CIM设计中系统到CIM数据传输的瓶颈难题;此外,A2-DF累加感知数据流技术的提出,实现了动态可重配置的数据写入路径和计算流,增强了写入路径的灵活性,并能根据工作负载动态调整数据流,进一步降低了数据传输能耗。

2025-04-02 15:01:09 791

原创 ISSCC 14.1 STT-MRAM CIM 赋能边缘 AI:高性能噪声鲁棒贝叶斯神经网络宏架构详解

该研究提出的22nm STT-MRAM CIM宏芯片,通过SCWT写入方案、μN-ΔI异构架构和2D-CVS-SMC读取方案等多项创新技术的集成,在能效、速度、精度和噪声鲁棒性方面均取得了显著进展。在未来,高性能、低功耗和高噪声鲁棒性的CIM宏芯片能够支持在资源受限的边缘设备上部署更复杂、更强大的神经网络模型,从而提升边缘设备的智能化水平,拓展边缘AI应用的范围。此外,噪声鲁棒性是评价CIM芯片性能的重要指标,尤其是考虑到边缘设备的工作环境往往充斥着复杂噪声,比服务器型芯片具有更高的要求。

2025-03-18 14:40:58 927

原创 IEDM 2024年会:复旦大学刘明院士团队展示融合非易失性铁电和易失性电荷俘获的动态存算类脑阵列

在短时状态下,图5从左至右分别展示了:a)在1.5V的VG脉冲下的PPD情况,在连续脉冲情况下,通道电流由于CT的积累而减小,导致第二脉冲峰A2低于第一个峰A1,右面板显示ID中峰值电流的逐渐下降,而在不同的长期FS状态下增加了刺激脉冲;自动驾驶中,轨迹预测是一个至关重要的功能,通常使用LSTM类型的网络来实现,已有的静态存内计算技术对长期参数(long-term parameter)进行了加速,但短期参数(short-term parameter)的推理计算仍面临较大的缓存开销。

2025-03-18 11:14:28 908

原创 智源Emu3发布,验证多模态模型新范式

具体来说,作者在MSCOCO-30K、GenEval、T2I-CompBench和DPG-Bench等流行的文本转图像地测试中进行了评估,四个评测基准分别针对不同的文本生成图像任务的能力,MSCOCO数据集主要用于图像描述和文本到图像生成任务的通用的评估,GenEval提供了一个多维度、多任务的NLG评估框架,强调全面性和细粒度,T2I-CompBench专门用于评估文本到图像生成模型在组合性方面的能力,DPG-Bench专注于评估文本生成模型在生成多样化释义方面的能力,评测结果如上表所示。

2025-03-17 11:19:21 869

原创 VLSI 2024论文详解:具有紧凑型MAC-SIMD和自适应竖式加法数据流的1T1C DRAM存内计算加速器Dyamond

其次,传统比特串行输入数据流需对每个输入比特执行多次模数转换(ADC)和数字累加,导致能效严重受限(每输入比特生成多比特部分和行,需N×B次ADC操作),同时难以维持复杂DNN模型(如ResNet、BERT)所需的信号量化噪声比(SQNR >30dB),阻碍其在先进AI场景中的部署。此外,SS-ADC可以实现更高的能效。SS-ADC的核心思想是通过信号偏移(Signal Shift),将ADC的输入信号分布零中心化,从而可以使用较低位宽的ADC,在保证精度的前提下,显著降低ADC的功耗。

2025-03-07 16:19:19 1159

原创 MWSCAS 2024 论文详解-PSB方法加速模拟存内计算中的乘加法

而在本文中,如图5所示,作者们没有调整参考电压范围,是直接根据推理部分和(Partial Sum)的MAC分布以及前文提到的VCUCM技术,通过缩放计算放电电流来增强(Boost)信号摆幅,这个技术就叫做部分和增强技术(PSB),他可以用忽略不计的功耗提升为代价(<1% ADC功耗),并使SAR-ADC能以更小的面积更低的功耗和更高的转化率来读取,来提升信号摆幅。如图1所示,传统的6T-SRAM在写入操作时需要两个传输门和两条位线,结构复杂且功耗较高,同时会占用较大的布局面积,不利于模拟存算的电路实现。

2025-03-05 17:16:08 980

原创 DeepSeek爆火登顶,下一代AI大模型深度解析

近日火爆科技圈,对决Open AI登顶海外App下载量第一的科技新秀Deepseek,引发媒体关注。在海内外一众大模型公司中为何脱颖而出,本博文展开深度解析。DeepSeek-V3是由中国公司深度求索(DeepSeek)开发的一款先进的大规模语言模型。用户可以通过官方网站进行注册和使用,注册过程简单便捷,仅需手机号即可完成。DeepSeek-V3在训练效率、成本控制、评测表现以及高并发支持等方面展现了显著的优势,使其在与主流大模型的对比中脱颖而出。从训练效率来看,DeepSeek-V3拥有6710亿参数,相

2025-01-27 21:41:30 3007 1

原创 机器人奇点:从宇树科技看2025具身智能发展

在3C、汽车、新能源等行业,这些机器人凭借高精度的视觉检测和精准的运动控制能力,实时感知并适应复杂变化的工业环境,大幅提升生产效率和产品质量,降低人力成本和生产周期。随着技术的成熟和成本的降低,具身智能机器人有望实现从专业领域向大众消费市场的普及,成为人们生活中不可或缺的一部分,深刻改变人类的生产生活方式,推动社会的智能化发展进程。Google DeepMind的RT-2模型是VLA的典型代表,它能够从网络数据和机器人数据中学习,将知识转化为机器人控制的通用指令,显著提升了机器人的泛化能力和语义推理能力。

2025-01-23 18:18:46 7684 1

原创 论文:高速模数转换器 ADC 芯片-基于亚稳态提升性能的研究与探索

并在22nm CMOS工艺下进行了流片研制,该芯片在1GS/s的采样率下实现了47.2dB SNDR的精度和4.15mW的功耗,在相近分辨率的单通道模数转换器中达到了较高的精度和保持了较高的能效(22.23fJ/conv.-step FoMw)。比较器对输入电压进行比较,同时异步逻辑通过 MRSE 监测每个位的比较时间 t_comp:如果 t_comp 小于Ts,表明比较器处于小亚稳态(S 亚稳态),META LOGIC检测到这一情况,并输出相应的标志信号,这将为最终输出提供额外的两位信息;

2025-01-22 12:12:57 1191

原创 论文:深度可分离神经网络存内计算处理芯片

相较于传统的卷积神经网络,深度可分离卷积具有如下四个优势:1,更少的参数:可减少输入通道数量,从而有效地减少卷积层所需的参数;2,更快的速度:运行速度比传统卷积快;3,更加易于移植:计算量更小,更易于实现和部署在不同的平台上;4,更加精简:能够精简计算模型,从而在较小的设备上实现高精度的运算。

2025-01-22 11:49:00 1555

原创 加速具身智能,英伟达推出的Cosmos世界基础模型

cosmos是一个用于加速物理AI开发的平台,可以预测与生成未来虚拟世界物理感知视频的神经网络,以帮助开发者进一步构建未来机器人与自动驾驶应用。WFM如大语言模型,属于一个基础性模型,WFM 通过学习大规模视频数据集中的物理规律和自然行为,能够生成与现实世界具有一定相似性的3D高清视频场景。同时通过扩散模型和自回归模型,对预训练的 WFM 进行微调,可以使其适应特定的物理 AI 任务。对于当下的具身智能模型训练,提供了新的支持。

2025-01-09 18:51:04 1371

原创 基于集成非互易磁光的超高耐久性光存内计算技术

光子计算利用光而非电子来进行数据处理的特性有望解决人工智能和机器学习领域对硬件能在超低功耗下实现超高计算吞吐量的需求,然而当前的光子存内计算架构面临存储阵列更新速度慢、能耗高以及耐久性不足等挑战。本文将从需求背景出发,逐一讲述该项研究的工作原理、实验验证以及未来展望等内容。

2025-01-07 11:21:01 1035

原创 IS-2T2R存储器:AWS精度下降问题的解决方案

通过这一系列的改进,IS-2T2R结构有效地解决了AWS问题,提高了权重感测的准确性和存内计算的精度。》这篇文献,它提出了一种对称式的2T2R忆阻器结构,通过引入隔离晶体管解决了传统2T2R忆阻器非对称结构带来的权重感知问题,结合工艺优化,实现了42.2%的集成度提升和8.8fJ/op的能效,下面是详细介绍。2T2R结构中,用于存储正负权重的两个晶体管,它们的源极一个连接到RRAM单元,另一个通过SL接地,导致在读取过程中,即使两个RRAM单元存储了相同的权重值,由于一个晶体管的栅源电压V。

2024-12-30 11:07:41 1473

原创 让AI来设计芯片,指日可待?

Synopsys.ai Copilot是新思科技规划中的生成式AI系列的首款产品,其特色在于学习全新的技能并与团队的需求一起成长,让芯片设计与制造厂商可以更轻松地提升生产力,并达成芯片设计从架构的探索、设计到制造的所有阶段的设计目标。AI驱动的芯片自主设计;不管怎样,AI已经证明了其在芯片设计辅助领域的强大能力,作为芯片领域的从业者,也许在不久的将来,我们就能见证AI for EDA,通过商业化AI软件辅助芯片设计,降低设计难度和成本,实现真正的“AI for All Chip Design”。

2024-12-24 11:07:28 1967

原创 存内架构IR-DROP问题详解-电容电导补偿

对于更复杂的电路,如广义逆电路,ConCom 方法同样适用,通过在左右阵列中进行行和列的电导补偿,实现电路输入节点的负载平衡,从而解决线性方程组问题。在 MMVM 电路中,通过确定补偿电导的值,使每个位线(BL)的电阻负载相等,可使电路可作为构建模块用于解决更复杂的问题,如基于局部竞争算法(LCA)的压缩感知(CS)恢复电路,通过将 MMVM 电路与模拟反相器、跨阻放大器(TIA)和软阈值模块相结合,实现从压缩输入信号中重建原始信号的功能。为满足复杂计算需求,。(b) 在125°C退火1小时后的分布。

2024-12-05 15:32:46 1535

原创 AI Top 100-AI 行业资讯网站

涵盖了各种技术主题,包括人工智能 (AI) 如何彻底改变网络和医疗保健等多个行业。如果您想了解人工智能的最新趋势和发展,这些网站时绝佳资源

2024-11-26 19:34:36 1297

原创 电容、电导补偿在存内计算架构优化中的应用

对于更复杂的电路,如广义逆电路,ConCom 方法同样适用,通过在左右阵列中进行行和列的电导补偿,实现电路输入节点的负载平衡,从而解决线性方程组问题。在 MMVM 电路中,通过确定补偿电导的值,使每个位线(BL)的电阻负载相等,可使电路可作为构建模块用于解决更复杂的问题,如基于局部竞争算法(LCA)的压缩感知(CS)恢复电路,通过将 MMVM 电路与模拟反相器、跨阻放大器(TIA)和软阈值模块相结合,实现从压缩输入信号中重建原始信号的功能。为满足复杂计算需求,。(b) 在125°C退火1小时后的分布。

2024-11-26 11:22:00 901

原创 15W奖金!首届知存科技杯高校存内计算创新大赛 正式启动

WTM-8系列芯片基于知存科技自主设计的第二代3D存内计算架构,实现了极低功耗下的8K/120FPS视频实时处理,是知存科技存内计算技术创新、工艺创新取得突破性进展的又一里程碑。为了让客户更便捷高效的基于存内计算芯片开发AI应用,知存科技一直致力于完善和优化存内计算生态,不仅搭建了首个官方存内计算开发者中心,还利用Github将自主研发的软件、工具链正式开源。今年5月,知存科技更是升级了产学研融合战略,联合国内顶级高校,从技术创新、学术交流、人才培养等多方面积极推动存内计算发展。作为产学研融合的又一尝试,

2024-11-21 14:03:56 292

原创 豆包大模型团队开源RLHF框架,破解强化学习训练部署难题

其次,初始化RLHF数据流中的模型并分配虚拟资源池;在这个游戏中,小鸟充当智能体,动作是让小鸟用力向上飞一下或者保持不动,状态包括小鸟的位置、高度、速度等,奖励是获得的积分,回报是获得的奖励的总和,策略是小鸟选择避开水管而飞得更远的依据。基于 Ray 的分布式编程,动态计算图,异构调度能力,通过封装单模型的分布式计算、统一模型间的数据切分,以及支持异步 RL 控制流,HybridFlow 能够高效地实现和执行各种 RL 算法,复用计算模块和支持不同的模型部署方式,大大提升了系统的灵活性和开发效率。

2024-11-08 15:17:14 2599

原创 ISSCC 34.9 面向塑性神经网络集片上自学习与推理一体

为了配合上述PCA更好地工作,本文设计了一种差分阵列融合ADC(DMA-ADC),并配备了多元素稀疏感知(MESA)控制机制:通过ADC重用CSAM采样电容,减少面积开销,通过检测输入数据的稀疏性动态调整ADC的感测步数,进一步降低功耗。本文将5T-LF单元和SRAM集成在一起,将长期和短期信息存储集成在同一个计算阵列(PCA,Plastic Cell Array)中,减少数据传输的延迟和功耗,MVM和MEM协同工作,可以在一个周期内完成计算。是学习率,该式表达了塑性神经网络的权重更新方式。

2024-11-05 14:27:26 909

原创 城市极客,存内先锋-存内社区主理人招募令

存内计算社区面向杭州,北京,上海,深圳,招募城市站主理人,与我们一起构建创新的存内计算社区。我们在这里等你,一起开启技术的新篇章,一起成为引领未来的力量!

2024-10-25 16:40:41 262

原创 1024程序员节- AI智能时代,码出未来

在 1024 程序员节这个特殊的日子里,探讨了 AI 技术在不同领域的应用与发展。上海和深圳作为科技创新的前沿阵地,相关活动中的演讲内容更是聚焦了 AI 技术的核心要点,为我们展示了 AI 时代的新趋势和新机遇。

2024-10-24 17:27:42 583

原创 “AI教父”获诺贝尔物理学奖|神经网络究竟有什么魔力?

2023年,OpenAI推出GPT-4,实现了多模态大语言模型的进一步突破,参数量达到了1.76万亿,与GPT-3相比,GPT-4展示了更强的多模态处理能力,能够处理文本、图像等多种数据形式[11]。在MLLM领域,存内计算技术可以在MLLM训练和推理时提供显著的计算加速,由于神经网络巡礼和推理的核心是大规模的矩阵乘法和卷积操作,存内计算可以在存储单元中直接进行矩阵乘加运算,并在进行大量并行计算时表现出色。同时,存内计算等新兴硬件架构的出现,为大规模神经网络的计算提供了全新的解决方案[10]。

2024-10-21 11:20:12 1163

新型存内计算架构的应用与挑战

该文档围绕新型存内计算架构展开,首先介绍研究背景,包括人工智能运算需求增长但面临AI与存储墙问题、摩尔定律放缓以及冯诺依曼架构的限制;接着阐述存内计算架构的原理与应用,如基于eNVM阵列实现多种运算及性能提升方案;然后指出新型存内计算架构面临模型权重与器件电导不匹配、计算噪声、边缘端学习能力缺失等挑战,并提出训练后量化、量化噪声感知训练、片上训练等解决方案;最后对存内计算架构的应用进行总结,包括多种神经网络及科学计算系统中的应用,以及提及训练后量化和硬件感知训练等内容。

2024-10-24

中国移动研究院-存算一体白皮书

本白皮书全面阐释了存算一体的核心技术、发展路线、应用场景和产业链生态。希望产学研各界能凝聚共识、加强合作、协同发展,推动存算一体技术成熟和生态繁荣,加快存算一体产业化进程,助力我国在先进计算领域实现高水平自立自强。

2024-05-09

存内计算工具链论文合集

存内计算相关工具链,包括工具链量化,映射,研究背景及现有工具链、存内计算相关工具链发展现状、存内计算工具链未来展望。

2024-05-09

基于忆阻器的存算融合计算架构论文合集

基于SRAM,MRAM,Nor Flash,DRAM等传统或新兴存储器做存算一体的计算架构详解,涵盖最新实验数据以及前沿公司项目论文。

2024-05-09

Session 34 Compute-In-Memory.pdf

Session 34 Compute-In-Memory.pdf

2024-05-01

存算上机位软件详情介绍

上机位软件是知存科技开发的一系列套件,包括Witmem Studio,SPI_Moniter,知存助听器控制台,存算芯片数据下载软件,FDSP自动化汇编指令生成器,FDSP调参软件,EQ及混响调参软件,WTM2系列芯片SDK,低功耗蓝牙显示系列芯片 SDK。 Witmem Studio是由知存科技开发的一款全功能集成开发环境,包含客户识别的SDK推送功能,SDK包自动更新下载安装功能,内核自动识别语法高亮编辑器,面向不同功能的个性化工程创建功能,以及常规IDE所具有的项目工程管理,文件编辑、编译、调试等功能。

2024-04-07

WTM2101编译工具链介绍

WITIN_MAPPER是知存科技自研的用于神经网络映射的编译软件栈,可以将量化后的神经网络模型映射到WTM2101 MPU加速器上,是一种包括RISC-V和MPU的完整解决方案,可以完成算子和图级别的转换和优化,将预训练权重编排到存算阵列中,极大地缩短模型移植的开发周期并提高算法开发的效率[10]。工具链配备五种可选的优化策略:参数放大、权重复制、高比特稀疏、多点卷积优化、正负(PN)优化,实际应用中,用户可根据权重大小、输入数据类型、精度要求、速度要求等多方面自行选择,一般来讲,权重复制+正负(PN)优化+多点卷积优化就可以满足大部分要求。

2024-04-07

【基于存内计算架构语音算法开发】的实验环境安装包

AISHELL-WakeUp-1数据集是中英文唤醒词语音数据库,命令词为“你好,米雅” “hi, mia”,语音数据库中唤醒词语音3936003条,1561.12小时,邀请254名发言人参与录制。录制过程在真实家居环境中,设置7个录音位,使用6个圆形16路PDM麦克风阵列录音板做远讲拾音(16kHz,16bit)、1个高保真麦克风做近讲拾音(44.1kHz,16bit)。此数据库可用于声纹识别、语音唤醒识别等研究使用。 本demo以该数据集为例,用不同网络结构展示模型训练及移植过程。

2023-12-06

WTM2101 ZT1 开发板用户使用手册

WTMDK2101-ZT1 是针对 WTM2101 AI SOC 设计的评估板。 WTMDK2101-ZT1 主要包含 WTM2101-S1 核心板接口,驻极体麦克风接口,音频模块接 口(如 ES8156/ES8311/ES8388/MAX98357 等),USB 串口,耳机接口,电池接口,电源监 测及控制接口等。 WTMDK2101-ZT1 评估板,可用于 WTM2101-S1 核心板测试,以及助听器通用方案的开 发。

2023-12-22

【基于存内计算架构的语音算法开发】工程软件安装包

步骤一:搭建 docker、mappper 环境: ①Linux 下通过 Docker 直接下载,获取指令: docker pull witin/toolchain:v001.000.034 ②Window 环境,可以通过 docker desktop 来使用 docker: 步骤⼆:搭建 IDE 环境 ①预先下载安装包,下载安装 ②默认安装路径,直接点击安装 ③从主菜单的 File->Open…菜单,或者点击工具栏的 按钮,打开选择文 件对话框,选择要打开的项⽬文件,即***.wmproject 文件即可,点击【打开】 按钮即可打开工程。

2023-12-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除