我在之前的文章小白也能看懂:GPU、TPU、NPU…AI芯片全家福,一文说清区别中就提到过“算力是人工智能发展的三大核心要素之一”。
而NVIDIA GPU作为AI算力发展中最关键、最不容忽视的一部分,了解它就非常重要了。
我们耳熟能详的一些AI巨兽大模型都是用NVIDIA GPU训练的。
如GPT4、Deepseek系列、Llama-4、Grok3。
有这些巨兽大模型珠玉在前,其它AI公司自然对NVIDIA GPU情不自禁,心向往之。
而且,选错卡=烧美金。(主流卡型介绍在文末,可拉到末尾直接阅读)
除非你是土豪玩家,否则NVIDIA GPU是你在了解AI算力的时候永远也绕不过去的一座大山。
二、NVIDIA GPU的核心参数和架构
选卡之前,可以先看看GPU的参数和架构。
1.核心性能参数
-
浮点运算能力(FLOPS)
FLOPS全称:Floating-point Operations Per Second,即每秒能进行多少次浮点数运算。这是一个衡量GPU“算数速度”的指标。也就是我们通常所说GPU“算力”的核心指标。
浮点数运算是啥?
就是带小数点的运算,比如3.14×2.71。它比整数计算复杂,AI训练和图形渲染都需要进行大量的浮点运算。
1 FLOPS = 每秒能进行1次浮点运算
1 TFLOPS = 每秒能进行1万亿次浮点运算(现在显卡常用这个单位)
1 PFLOPS = 每秒能进行1000万亿次浮点运算
NVIDIA GPU的算力直接标TFLOPS,数字越大,运算越快。
在我们谈论算力的时候,常常会提到的半精度 (FP16)、单精度(FP32)、双精度(FP64)又是什么?
这三个都是浮点数在计算机中的存储格式。
半精度(FP16):占用 16 位二进制,由 1 位符号位、5 位指数位、10 位尾数位组成。
单精度(FP32):占用 32 位二进制,由 1 位符号位、8 位指数位、23 位尾数位组成。
双精度(FP64):占用 64 位二进制,由 1 位符号位、11 位指数位、52 位尾数位组成。
精度越高,效率越低,成本越贵。
以前的大模型训练以FP32为主,现在更多是FP32和FP16的混合精度;推理的话,更多是FP16及其以下。
一般来说,追求高效低成本选择FP16(也是目前市面上的主流选择);不能容忍误差选FP64(如果你造的是火箭,算运行轨道确实误差越小越好);想追求平衡选FP32。(一种中庸之道
)
-
GPU架构
不同型号的GPU的架构可能不同。不同架构的GPU,即便其他参数一样,性能也会有很大差异。
NVIDIAGPU的架构不断进化,每隔几年就会出一个新的架构。越晚推出的架构,越强。
下表是NVIDIAGPU的架构出现时间线。每个架构的名称都取自一位科学家的名字。
这里面Hopper架构的H100,和后来特供中国的H20均已被禁止;Blackwell架构的B200也同样被禁止向中国大陆售卖。
-
流处理器(CUDA核心)
CUDA全称:CUDA 核心(Compute Unified Device Architecture Core)
它是NVIDIA GPU的基础计算单元。每个CUDA核心只处理简单的数学运算(如浮点加减乘除),但通过集成数千个这样的核心,GPU能同时处理海量数据,速度远超CPU。CUDA核心越多,并行处理能力越强。
-
张量核心(Tensor Core)
它是NVIDIA GPU中的一种专用计算单元,专门用于加速矩阵和张量运算,尤其在深度学习和高性能计算(HPC)中表现突出。
张量核心比CUDA牛在它能做矩阵运算,而CUDA一次只能算一个数字。所以张量核心效率更高。
-
Tensor性能(Tensor TFLOPS)
Tensor性能(Tensor TFLOPS)是衡量GPU或AI加速器在张量计算任务中的浮点运算能力的核心指标。专指通过上面的
Tensor Core加速的浮点运算。数字越大,计算越快。
需要补充说明的是一般企业在做决策时不会太关注Tensor core的数量,而更看重Tensor性能。
-
Int8 (Int8量化)
Int8(8-bit Integer) 是一种固定精度的整数数据类型,占用 1 字节(8 位)存储空间。如果你将训练好的模型参数量化为 Int8,在推理阶段用低精度计算替代浮点运算,将可以大幅提升速度并减少算力消耗。
2.显存配置
-
显存容量
专门存放GPU处理游戏画面、3D模型、AI计算等任务时的临时数据。显存容量就像内存,并不是越大越好,够用就行。专业级GPU(如NVIDIA A100)显存可达80GB HBM2,支持大规模AI训练。
-
显存位宽与带宽
显存位宽和带宽决定了显卡数据传输的速度。
显存位宽是GPU和显存之间的“数据通道宽度”,单位是bit(位),比如128bit、256bit、384bit等。位宽越大,GPU能同时读取的数据越多。
显存带宽是GPU每秒能从显存读取/写入的数据量,单位是GB/s(千兆字节每秒)。
通俗地理解,位宽是马路宽度,带宽是马路上的车流量大小。马路越宽,能容纳的车流量也越多,显卡性能就越高。
-
显存类型
显卡上用于存储和处理图形数据的专用内存技术,不同显存类型在带宽、功耗和性能上有显著差异。
主流显存类型有3种:GDDR、HBM和LPDDR。
GDDR系列主要用于游戏,HBM系列主要用于高端AI计算,如数据中心,LPDDR系列主要用于移动/边缘设备。
三、NVIDIA GPU 大类速览
你是不是经常听到H100、A100、H20,还有Geforce?
这些“大名鼎鼎”的GPU有什么样的性能?为什么要选择某一种GPU?
根据不同的应用和场景,我们对常见的NVIDIA GPU产品做一个简单的划分。
我们经常听到的卡型在这里面都做了分类。(一些用于边缘计算的因为目前并不火热所以没有被列出来)
可以看出来一般企业玩家更关注的是H型卡。在我们这边咨询得最多的也是H型卡~
四、热门卡型横向对比参考
对于企业玩家来说,在选卡的时候,也会在不同型号之间进行对比。虽然专业的指标不少,但决策人通常更加关注:FP16算力、Tensor性能、显存、带宽。
以下列出3种(我们后台咨询最多的)NVIDIA主流大卡参数(均为官网截图):
H100参数如下:
A100参数如下:
H200参数如下:
H20参数(官网我没找到,截图是以前的,不太清晰请见谅):
采购这些GPU的成本非常昂贵,而且有些型号目前已经被禁,所以转向算力租赁平台不失为一个上策。
九章云极AlayaNeW算力云搭载NVIDIA H型集群,提供超强AI训练和推理能力,弹性租用成本直降40%,让企业轻松驾驭大模型时代。
如果你是游戏玩家,可参考下图(核心性能和算力没有放在图表里,因为普通游戏玩家不太看重这些):
五、总结
在本文撰写之际,英伟达新一代 GPU 架构 “Rubin” 正式亮相,预计 2026 年初启动量产。从最初专注于革新游戏玩家体验,到如今成为支撑 AI 技术突破与设计创作的核心算力引擎,英伟达始终站在技术浪潮的最前沿。
其不断迭代的芯片架构与持续攀升的算力天花板,恰如一场自我突破的技术突围 —— 每一次架构升级,都是对行业算力边界的重新定义。
这种 “自己捅破自己天花板” 的创新魄力,不仅坐实了其行业引领者的地位,更吸引着全球技术力量争相追随。
尽管眼下尚未有竞争对手能与其并驾齐驱,但技术竞速的魅力正在于此 —— 我们始终期待着,下一个颠覆者登场的时刻。