本文来源公众号“AI新智力”,仅用于学术分享,侵权删,干货满满。
原文链接:大模型入门19:算力芯片选型的考量因素
“ 大模型私有化部署,应选择多大的算力资源?要考虑算力的哪些技术指标和因素?”
尽管英伟达产品在国内销售受限,但是其作为旗舰代表产品,本文仍以英伟达产品为例,对大模型算力技术指标进行简要陈述。
算力的衡量指标
算力既然是一个“能力”,当然就会有对它进行强弱衡量的指标和基准单位。前文大模型入门18:算力与CPU、GPU、GPGPU、TPU、DPU我们提到现代算力的主要是信息计算力、数据存储力、网络运载力的集中体现。在人工智能领域这三个要素也是至关重要,因此最关键的就是计算性能、内存大小(因为起源于显卡的缘故又叫显存)、内存带宽和互联带宽。
1. 算力性能:理论计算速度
计算性能,也就是计算的快慢,一般以FLOPS(Float Operation Per Second,每秒浮点运算数)作为衡量单位。常见的MFLOPS、GFLOPS、TFLOPS、PFLOPS等,都是FLOPS的不同量级,最常用的就是TFLOPS,即每秒一万亿次(10^12)浮点运算。
除此之外,衡量算力大小的指标还有其他指标,例如MIPS、DMIPS、OPS等。
FLOPS又根据不同的数据精度大小(FP16、FP32、FP64等)有不同的规格。对于大模型而言:
在训练阶段主流选择FP16混合精度(兼顾效率与稳定性),替代方案选择BF16(动态范围与FP32一致)或TF32(NVIDIA Ampere GPU专用)。
在推理阶段主流选择FP16、FP8(依赖硬件支持)或INT8量化(极致压缩显存)。
因此,在算力芯片选型时,要重点关注FP16的FLOPS值的大小。
注:
1. FP16中的“F”代表浮点数(Float),“P”代表精度(Precision),表示这是一种16位精度的浮点数格式,其他类似。
2. BF16中的“B"代表Brain,”F“代表Float,一种专为深度学习设计的16位浮点数格式,由Google Brain团队开发。
3. TF32中的“T”代表(Tensor),“F”代表(Float),NVIDIA Ampere架构 GPU专用。
2. 内存大小:又叫显存大小
显存大小影响模型规模支持能力。例如大模型训练一般需48GB以上的显存。显存占用与模型参数量及数据精度直接相关:
显存大小 ≈ 参数量 × 每参数占用字节数
例如:参数使用FP16/BF16(半精度),也就是每个参数占2字节,7B模型需14GB显存空间。
但是,实际显存需求高于理论值。因为除参数占用外,还需额外空间存储中间计算结果(激活值)、输入数据等。例如,7B模型在FP16推理时显存通常为16-20GB,比理论值高20%-40%。
3. 内存带宽和互联带宽
内存带宽指的是单个芯片内部的数据传输能力,高带宽可缓解“内存墙”问题,确保数据供给与算力匹配。
互联带宽(如NVLink)指的是多个芯片协同运算时的数据传输能力,高带宽可以在集群分布式计算时确保数据共计与算力匹配。
英伟达芯片产品线
前文大模型入门18:算力与CPU、GPU、GPGPU、TPU、DPU中,提到了GPU本来是为图形渲染设计的,用GPU做深度学习是无心插柳的结果。英伟达公司为了满足人工智能的算力需求,不断地在图形芯片上改进,甚至而推出了专用人工智能芯片产品。主要产品线如下:
1. GeForce系列:消费级/游戏与创作
面向游戏玩家和普通用户,以高性能图形处理为核心:
-
RTX 40系列:最新旗舰级产品,如RTX 4090(24GB显存,支持DLSS 3技术,4K游戏性能提升显著)。
-
RTX 30系列:基于Ampere架构,代表性型号包括RTX 3090 Ti(AI算力和光线追踪性能突出)。
-
GTX系列:如GTX 1650/1660等,性价比高,适合中低端市场。
2. Quadro/RTX系列:专业图形工作站
服务于工业设计、影视制作、建筑设计、科学可视化等专业领域:
-
NVIDIA RTX系列:如RTX A6000(48GB显存,支持实时光线追踪和AI加速)。
-
Quadro RTX系列:如RTX 8000(支持多GPU互联,适用于高精度渲染)。
3. Tesla系列:数据中心/高性能计算与AI
专为AI训练、推理和高性能计算优化:
-
Ampere架构:A100(广泛用于云计算,后被A800替代)、A800(中国市场专供,NVLink带宽受限)。
-
Hopper架构:H100(算力领先,但受出口管制限制)、H800(中国市场专供,NVLink带宽受限)、H20(中国市场特供版,性能约为H100的15%)。
-
Blackwell架构:Blackwell Ultra(内存带宽288GB,推理能力提升1.5倍)和Rubin芯片(2026年推出,支持模块化组合)。
架构迭代顺序:Ampere→Hopper→Blackwell
4. 自动驾驶与边缘计算
整合GPU+CPU的专用解决方案:
-
NVIDIA DRIVE平台:集成Orin芯片(支持自动驾驶实时决策)和Grace CPU超级芯片(高带宽互联,适用于车载AI)。
-
Jetson系列:面向边缘设备的小型化AI计算模块。
5. 其他专用产品
-
Tegra系列:曾用于移动设备,后逐步整合至自动驾驶平台。
-
Grace CPU:基于ARM架构的数据中心处理器,与GPU协同加速AI负载。
-
L系列:如L20,是英伟达为应对美国出口管制而设计的中国市场特供版,与H20、L2共同构成合规产品。基于Ada Lovelace架构(与消费级RTX 4090同架构),但针对数据中心优化,支持FP8精度和ECC显存校验。
英伟达AI芯片对比分析
除了算力性能、内存大小(显存大小)、显存带宽和互联带宽(NVLink带宽)外,对于英伟达AI芯片而言,还有两个极其重要的两个参数:
1. CUDA核心数。CUDA核是GPU执行并行计算的基本单元,每个核可独立处理一个线程任务。核数越多,GPU的并行吞吐能力越强,尤其适合需要同时处理海量数据的场景。
2. Tensor核心数。其重要性主要有以下三个方面:
一是深度学习优化。Tensor核专门优化矩阵乘法和累加(GEMM)操作,支持混合精度计算(如FP16、BF16、TF32),在训练和推理中可提升10-16倍速度。
二是能效比优化。通过低精度计算(如FP8)减少显存占用和功耗,同时保持模型精度,适合大模型的高效训练。
三是稀疏计算支持。新一代Tensor核(如Hopper架构)支持稀疏矩阵计算,进一步加速推理任务。
下表对比分析了目前市面上常见的英伟达系列智算芯片的重要参数,其中A800、H800、H20、L20为中国特供版。
总结
除了综上所述,选择芯片时,要从以下几个方面考虑。
首先,要考虑算力性能、内存大小(显存大小)、显存带宽和互联带宽:
-
算力性能决定了训练和推理的速度。在推理时,表现就是输出Token的快慢。
-
内存大小决定了支持的模型大小。可以根据参数量进行估算,比如7B模型在FP16推理时显存通常为16-20GB。
-
显存带宽决定了训练和推理的速度。
-
互联带宽决定了多卡情况下的训练和推理的速度。
其次,还要考虑并行计算单元的数量(如CUDA核数)、矩阵计算单元(如Tensor核数)等的数量。
再次,要考虑经济条件和市场环境因素。比如目前英伟达的A系列、H系列(包括H20)已被禁售(H20目前可能还能采购到,但价格奇高)。
最后,要考虑技术生态。目前英伟达的技术生态最为完善,单从技术角度而言是首选产品。但国产品牌如华为昇腾系列等产品,其算力、生态也正逐步追赶和完善。
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。