半导体技术发展至今,已进入后摩尔定律时代。通过提升工艺来提升冯·诺依曼架构性能的难度越来越大。存算一体(In-memory Computing)作为一种新兴的技术,为彻底解决冯诺依曼架构的瓶颈带来了希望。
01
—
冯·诺依曼架构的瓶颈
传统的计算机采用冯·诺依曼体系结构,在这种体系结构中计算和存储功能是分离的,分别由中央处理器CPU和存储器完成。CPU和存储器通过总线互连通信,CPU从存储器读出数据,完成计算,然后将结果写回存储器。Fig. 1. 冯·诺依曼架构示意图
随着半导体产业的发展和需求的差异,处理器和存储器二者之间走向了不同的工艺路线。面向用户对处理器的高性能需求,半导体厂商通过减小器件尺寸,使用更多的金属布线层来降低互连线延迟,不断提高处理器的性能。Fig. 3. 3D NAND Flash Memory
处理器与存储器需求不同,工艺不同,封装不同,导致二者在工业生产层面无法完美兼容,且二者之间的性能差距越来越大。当前主流的商用微处理器主频已达3GHz以上,存储总线主频仅400MHz;处理器速度每年增长60%,存储器存取延迟每年仅改善7%。处理器性能远远大于DRAM。由通信带宽和延迟构成的“存储墙(Memory wall)”成为提高系统性能的最大障碍。以Intel i9-7980XE 18 核 36 线程CPU为例,其配合超频过的 DDR4 3200MHz 的内存,测试出的内存读取速度为 90GB/S。再看图中的 L1 Cache,3.7TB/S。这颗 CPU 最大睿频 4.4GHz,就是说 CPU 执行一个指令需要的时间是0.22ns(纳秒),而内存的延迟是 68.1ns。换句话说,只要去内存里取一个字节,就需要 CPU 等待 300 个周期。Fig. 4. CPU and cache memory speed mismatch
存储与计算模块的分离带来的问题还有功耗墙(power wall)。随着半导体工艺的演进,数据迁移的效率却没有