RISC-V架构下 DSA - AI算力的更多可能性:Banana Pi BPI-F3 进迭时空

AI已经从技术走向应用,改变了我们的生活和工作方式。近些年,AI算力芯片领域群雄逐鹿,通过对芯片、算力与AI三者发展迭代过程的理解,我们发现高能效比的算力、通用的软件栈以及高度优化的编译器,是我们的AI算力产品迈向成功的必要条件。

进迭时空作为计算芯片企业,我们对RISC-V架构CPU进行高度定制,不断挖掘其在计算中的潜力,在RISC-V生态强大的软件栈与CPU领域成熟的编译器的基础上对RISC-V DSA进行联合优化并提供软硬一体的计算解决方案,给AI领域带来高效、易用的算力。

Banana Pi BPI-F3

GPGPU作为HPC领域(通用算力)的DSA打开了AI的大门

在上世纪80年代到90年代之间,随着科技的迅速发展,CPU的性能每隔约18到20个月就会翻倍。这便是英特尔(Intel)创始人之一戈登·摩尔提出的摩尔定律(Moore's Law)的核心内容。其含义是,每隔大约18个月,同一款软件在新发布的CPU处理器上的运行速度都能直接翻倍。

大约在2004年5月份,转折点出现了。当时,Intel取消了他们新一代单核处理器的开发工作,而将注意力转向了双核处理器的设计。稍晚的同年,Herb Sutter撰写了著名的《The Free Lunch Is Over(不再有免费午餐)》,主要表达了这样一个观点:除非软件的开发采用多核多线程的设计,否则就无法再像过去那样每隔一年多时间就获得一倍的加速效果。正如下图所示,CPU处理器的单核计算性能开始接近一个平台区间,通过增加晶体管密度提升计算性能的方法已经显得力不从心,因为芯片尺寸的不断缩小总会遇到其物理极限。这意味着要获得更高的性能提升,就需要采用新的方法。

图一:42年间的微处理器趋势数据

随着晶体管数量增加到一定程度,CPU单核性能的增加开始衰减并面临瓶颈

在摩尔定律效应放缓的后摩尔时代,持续提升处理器性能的重要技术理念是Domain-Specific Architectures(DSA)。DSA利用可编程的专用集成电路(ASICs)来加速特定高强度的处理器负载,例如图形渲染、AI神经网络的前向推理计算以及提高巨量网络数据的吞吐等。

架构的定义包含指令集架构与微架构。指令集架构是软件与硬件对话的接口,类似于词典中的词条,而软件程序则是使用这些词条编写的书籍。

图二:架构设计哲学

DSA的理念是通过面向特定领域的架构设计来缩小应用范围,从而实现更高的性能或更好的能效比,同时保持可编程的灵活性。

• 面向领域的架构设计可以以较低的成本获取较高的算力,以满足算力需求。

• 指令集架构的可编程性带来了相对通用的算力,为下一代算法的应用和覆盖更广泛的领域提供了无限的可能。

DSA的概念由2017年图灵奖得主Henessy和Patterson提出,并在题为《创新体系结构将迎来新的黄金时代》的演讲中进行了阐述。我们最熟悉的DSA之一可能是显卡(Graphics Processing Unit即GPU),它在游戏、影音娱乐等领域中扮演着重要角色。

NVIDIA公司于1999年发布其标志性产品GeForce256时首次提出了GPU的概念。其实质是为了加速计算3D虚拟世界的渲染,从而降低CPU的负载。GPU技术的进步推动了显卡杀手级游戏引擎的激进发展,到如今,游戏画面的逼真程度已经堪比真人版电影。

时间来到2006年,NVIDIA发布了GeForce 8800 GTX(核心代号G80),与G80一同发布的还有著名的CUDA(compute unified device architecture),并提供了驱动程序和C语言扩展。

CUDA的发展至今,区别于开放计算语言(OpenCL跨平台并行编程的独立开放标准),开发人员可以使用流行的语言(C、C++、Fortran、Python、MATLAB等)编写CUDA程序,并使用几个基本的关键字即可将并行性添加到他们的代码中,而不仅仅局限于使用C语言。尽管理论上OpenCL的运行时编译能够带来更高的执行效率,但实际上由于CUDA是由同一家开发执行其功能的硬件的公司开发,所以后者能更好地匹配GPU的计算特性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值