一文彻底读懂:英伟达GPU分类、架构演进和参数解析

我在之前的文章小白也能看懂:GPU、TPU、NPU…AI芯片全家福,一文说清区别中就提到过“算力是人工智能发展的三大核心要素之一”。

而NVIDIA GPU作为AI算力发展中最关键、最不容忽视的一部分,了解它就非常重要了。

我们耳熟能详的一些AI巨兽大模型都是用NVIDIA GPU训练的。

如GPT4、Deepseek系列、Llama-4、Grok3。

有这些巨兽大模型珠玉在前,其它AI公司自然对NVIDIA GPU情不自禁,心向往之。

图片

而且,选错卡=烧美金。(主流卡型介绍在文末,可拉到末尾直接阅读)

除非你是土豪玩家,否则NVIDIA GPU是你在了解AI算力的时候永远也绕不过去的一座大山。

二、NVIDIA GPU的核心参数和架构

选卡之前,可以先看看GPU的参数和架构。

1.核心性能参数

  • 浮点运算能力(FLOPS)

FLOPS全称:Floating-point Operations Per Second,即每秒能进行多少次浮点数运算。这是一个衡量GPU“算数速度”的指标。也就是我们通常所说GPU“算力”的核心指标。

浮点数运算是啥?

就是带小数点的运算,比如3.14×2.71。它比整数计算复杂,AI训练和图形渲染都需要进行大量的浮点运算。

1 FLOPS = 每秒能进行1次浮点运算

1 TFLOPS = 每秒能进行1万亿次浮点运算(现在显卡常用这个单位) 

1 PFLOPS = 每秒能进行1000万亿次浮点运算

NVIDIA GPU的算力直接标TFLOPS,数字越大,运算越快。

在我们谈论算力的时候,常常会提到的半精度 (FP16)、单精度(FP32)、双精度(FP64)又是什么?

这三个都是浮点数在计算机中的存储格式。

半精度(FP16):占用 16 位二进制,由 1 位符号位、5 位指数位、10 位尾数位组成。

单精度(FP32):占用 32 位二进制,由 1 位符号位、8 位指数位、23 位尾数位组成。

双精度(FP64):占用 64 位二进制,由 1 位符号位、11 位指数位、52 位尾数位组成。

精度越高,效率越低,成本越贵。

以前的大模型训练以FP32为主,现在更多是FP32和FP16的混合精度;推理的话,更多是FP16及其以下。

一般来说,追求高效低成本选择FP16(也是目前市面上的主流选择);不能容忍误差选FP64(如果你造的是火箭,算运行轨道确实误差越小越好);想追求平衡选FP32。(一种中庸之道

图片

  • GPU架构

不同型号的GPU的架构可能不同。不同架构的GPU,即便其他参数一样,性能也会有很大差异。

NVIDIAGPU的架构不断进化,每隔几年就会出一个新的架构。越晚推出的架构,越强。

下表是NVIDIAGPU的架构出现时间线。每个架构的名称都取自一位科学家的名字。

图片

这里面Hopper架构的H100,和后来特供中国的H20均已被禁止;Blackwell架构的B200也同样被禁止向中国大陆售卖。

  • 流处理器(CUDA核心)

CUDA全称:CUDA 核心(Compute Unified Device Architecture Core)

它是NVIDIA GPU的基础计算单元。每个CUDA核心只处理简单的数学运算(如浮点加减乘除),但通过集成数千个这样的核心,GPU能同时处理海量数据,速度远超CPU。CUDA核心越多,并行处理能力越强。

  • 张量核心(Tensor Core)

它是NVIDIA GPU中的一种专用计算单元,专门用于加速矩阵和张量运算,尤其在深度学习和高性能计算(HPC)中表现突出。

张量核心比CUDA牛在它能做矩阵运算,而CUDA一次只能算一个数字。所以张量核心效率更高。

  • Tensor性能(Tensor TFLOPS)

Tensor性能(Tensor TFLOPS)是衡量GPU或AI加速器在张量计算任务中的浮点运算能力的核心指标。专指通过上面的

Tensor Core加速的浮点运算。数字越大,计算越快。

需要补充说明的是一般企业在做决策时不会太关注Tensor core的数量,而更看重Tensor性能。

  • Int8 (Int8量化)

Int8(8-bit Integer) 是一种固定精度的整数数据类型,占用 1 字节(8 位)存储空间。如果你将训练好的模型参数量化为 Int8,在推理阶段用低精度计算替代浮点运算,将可以大幅提升速度并减少算力消耗。

2.显存配置

  • 显存容量

专门存放GPU处理游戏画面、3D模型、AI计算等任务时的临时数据。显存容量就像内存,并不是越大越好,够用就行。专业级GPU(如NVIDIA A100)显存可达80GB HBM2,支持大规模AI训练。

  • 显存位宽与带宽

显存位宽和带宽决定了显卡数据传输的速度。

显存位宽是GPU和显存之间的“数据通道宽度”,单位是bit(位),比如128bit、256bit、384bit等。位宽越大,GPU能同时读取的数据越多。

显存带宽是GPU每秒能从显存读取/写入的数据量,单位是GB/s(千兆字节每秒)。

通俗地理解,位宽是马路宽度,带宽是马路上的车流量大小。马路越宽,能容纳的车流量也越多,显卡性能就越高。

  • 显存类型

显卡上用于存储和处理图形数据的专用内存技术,不同显存类型在带宽、功耗和性能上有显著差异。

主流显存类型有3种:GDDR、HBM和LPDDR。

GDDR系列主要用于游戏,HBM系列主要用于高端AI计算,如数据中心,LPDDR系列主要用于移动/边缘设备。

三、NVIDIA GPU 大类速览

你是不是经常听到H100、A100、H20,还有Geforce?

这些“大名鼎鼎”的GPU有什么样的性能?为什么要选择某一种GPU?

根据不同的应用和场景,我们对常见的NVIDIA GPU产品做一个简单的划分。

图片

我们经常听到的卡型在这里面都做了分类。(一些用于边缘计算的因为目前并不火热所以没有被列出来)

可以看出来一般企业玩家更关注的是H型卡。在我们这边咨询得最多的也是H型卡~

四、热门卡型横向对比参考

对于企业玩家来说,在选卡的时候,也会在不同型号之间进行对比。虽然专业的指标不少,但决策人通常更加关注:FP16算力、Tensor性能、显存、带宽。

以下列出3种(我们后台咨询最多的)NVIDIA主流大卡参数(均为官网截图):

H100参数如下:

图片

图片

A100参数如下:

图片

图片

H200参数如下:

图片

图片

H20参数(官网我没找到,截图是以前的,不太清晰请见谅):

图片

采购这些GPU的成本非常昂贵,而且有些型号目前已经被禁,所以转向算力租赁平台不失为一个上策。

九章云极AlayaNeW算力云搭载NVIDIA H型集群,提供超强AI训练和推理能力,弹性租用成本直降40%,让企业轻松驾驭大模型时代。

如果你是游戏玩家,可参考下图(核心性能和算力没有放在图表里,因为普通游戏玩家不太看重这些):

图片

五、总结

在本文撰写之际,英伟达新一代 GPU 架构 “Rubin” 正式亮相,预计 2026 年初启动量产。从最初专注于革新游戏玩家体验,到如今成为支撑 AI 技术突破与设计创作的核心算力引擎,英伟达始终站在技术浪潮的最前沿。

其不断迭代的芯片架构与持续攀升的算力天花板,恰如一场自我突破的技术突围 —— 每一次架构升级,都是对行业算力边界的重新定义。

这种 “自己捅破自己天花板” 的创新魄力,不仅坐实了其行业引领者的地位,更吸引着全球技术力量争相追随。

尽管眼下尚未有竞争对手能与其并驾齐驱,但技术竞速的魅力正在于此 —— 我们始终期待着,下一个颠覆者登场的时刻。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值