RISC-V架构下 DSA - AI算力的更多可能性：Banana Pi BPI-F3 进迭时空

AI已经从技术走向应用，改变了我们的生活和工作方式。近些年，AI算力芯片领域群雄逐鹿，通过对芯片、算力与AI三者发展迭代过程的理解，我们发现高能效比的算力、通用的软件栈以及高度优化的编译器，是我们的AI算力产品迈向成功的必要条件。

进迭时空作为计算芯片企业，我们对RISC-V架构CPU进行高度定制，不断挖掘其在计算中的潜力，在RISC-V生态强大的软件栈与CPU领域成熟的编译器的基础上对RISC-V DSA进行联合优化并提供软硬一体的计算解决方案，给AI领域带来高效、易用的算力。

Banana Pi BPI-F3

GPGPU作为HPC领域(通用算力)的DSA打开了AI的大门

在上世纪80年代到90年代之间，随着科技的迅速发展，CPU的性能每隔约18到20个月就会翻倍。这便是英特尔（Intel）创始人之一戈登·摩尔提出的摩尔定律（Moore's Law）的核心内容。其含义是，每隔大约18个月，同一款软件在新发布的CPU处理器上的运行速度都能直接翻倍。

大约在2004年5月份，转折点出现了。当时，Intel取消了他们新一代单核处理器的开发工作，而将注意力转向了双核处理器的设计。稍晚的同年，Herb Sutter撰写了著名的《The Free Lunch Is Over（不再有免费午餐）》，主要表达了这样一个观点：除非软件的开发采用多核多线程的设计，否则就无法再像过去那样每隔一年多时间就获得一倍的加速效果。正如下图所示，CPU处理器的单核计算性能开始接近一个平台区间，通过增加晶体管密度提升计算性能的方法已经显得力不从心，因为芯片尺寸的不断缩小总会遇到其物理极限。这意味着要获得更高的性能提升，就需要采用新的方法。

图一：42年间的微处理器趋势数据

随着晶体管数量增加到一定程度，CPU单核性能的增加开始衰减并面临瓶颈

在摩尔定律效应放缓的后摩尔时代，持续提升处理器性能的重要技术理念是Domain-Specific Architectures（DSA）。DSA利用可编程的专用集成电路（ASICs）来加速特定高强度的处理器负载，例如图形渲染、AI神经网络的前向推理计算以及提高巨量网络数据的吞吐等。

架构的定义包含指令集架构与微架构。指令集架构是软件与硬件对话的接口，类似于词典中的词条，而软件程序则是使用这些词条编写的书籍。

图二：架构设计哲学

DSA的理念是通过面向特定领域的架构设计来缩小应用范围，从而实现更高的性能或更好的能效比，同时保持可编程的灵活性。

• 面向领域的架构设计可以以较低的成本获取较高的算力，以满足算力需求。

• 指令集架构的可编程性带来了相对通用的算力，为下一代算法的应用和覆盖更广泛的领域提供了无限的可能。

DSA的概念由2017年图灵奖得主Henessy和Patterson提出，并在题为《创新体系结构将迎来新的黄金时代》的演讲中进行了阐述。我们最熟悉的DSA之一可能是显卡（Graphics Processing Unit即GPU），它在游戏、影音娱乐等领域中扮演着重要角色。

NVIDIA公司于1999年发布其标志性产品GeForce256时首次提出了GPU的概念。其实质是为了加速计算3D虚拟世界的渲染，从而降低CPU的负载。GPU技术的进步推动了显卡杀手级游戏引擎的激进发展，到如今，游戏画面的逼真程度已经堪比真人版电影。

时间来到2006年，NVIDIA发布了GeForce 8800 GTX（核心代号G80），与G80一同发布的还有著名的CUDA（compute unified device architecture），并提供了驱动程序和C语言扩展。

CUDA的发展至今，区别于开放计算语言（OpenCL跨平台并行编程的独立开放标准），开发人员可以使用流行的语言（C、C++、Fortran、Python、MATLAB等）编写CUDA程序，并使用几个基本的关键字即可将并行性添加到他们的代码中，而不仅仅局限于使用C语言。尽管理论上OpenCL的运行时编译能够带来更高的执行效率，但实际上由于CUDA是由同一家开发执行其功能的硬件的公司开发，所以后者能更好地匹配GPU的计算特性