NVIDIA RTX 5090 作为 NVIDIA Blackwell 架构下的消费级旗舰显卡,一经发布便重新定义了高性能显卡标杆,横扫国内外多家知名显卡天梯榜。然而,RTX 5090 只使用了 GB202 芯片中的 21760 个CUDA 核心,远没达到其满血的 24576 个CUDA 核心。
市场上期待真正的 NVIDIA Blackwell 架构卡王,而在今年 3月,NVIDIA 在GTC 大会上正式推出了 RTX PRO™ Blackwell 系列,其中 NVIDIA RTX Pro 6000 作为该系列的最强旗舰,拥有高达 24064 个CUDA 核心,对 GB202 芯片利用率高达 97.9%,是 NVIDIA Blackwell 架构卡王的有力竞争者。
RTX Pro 6000 通过突破性的加速计算、AI 推理、光线追踪和神经渲染技术,能够被广泛应用于高性能计算、AI 开发、数据科学、内容创作及工程可视化领域,是均衡 AI 计算与图形处理的“水桶”卡。基于 RTX PRO Blackwell 系列为各行各业的专业人士提供从桌面,到移动工作站再到数据中心的 AI 计算及图形处理的能力的开发理念,NVIDIA 提供了三个版本的 RTX Pro 6000 GPU。
在对比开始之前,如果你对 RTX Pro 6000 或AI 服务器有独特的见解,不妨识别下方二维码加入智算行业群一起探讨交流。
解析 RTX PRO 6000 的核心参数
-
架构与工艺:基于 NVIDIA Blackwell 2.0 架构,GB202 芯片,采用台积电 4nm 工艺,集成 922 亿晶体管,芯片面积达 750mm²。
-
核心配置:高达 24064 个CUDA 核心,752 个第 5代 Tensor Cores 和188 个第 4代 RT Cores,可提供 125TFPLOS 的FP32 训练算力、4000TFLOPS 的FP4 推理算力和两倍于上一代的图形处理性能。
-
显存容量:搭载 96GB GDDR7 显存(支持 ECC 纠错),通过 512 位总线实现 1.79 TB/s 带宽。这使得使用 RTX PRO 6000 的应用能够运行得更快,并使用更大、更复杂的数据集,能够处理更大的 AI 模型和图形应用。
-
编解码:支持九代 NVIDIA NVENC,加快视频编码速度并提高专业视频应用程序的质量。支持第六代 NVIDIA NVDEC,提供高达 2 倍的 H.264 解码吞吐量,并支持 4:2:2 H.264 和 HEVC 解码。为专业人士提供更高质量的视频,加速视频数据摄取,驱动更高级的视频编辑功能。
-
DisplayPort 2.1:以高达 4K(480Hz)和 8K(165Hz)的速度驱动高分辨率显示器。增加的带宽可实现无缝的多显示器设置,而高动态范围和更高的颜色深度支持可为视频编辑、3D 设计和实时广播等任务提供更精确的颜色准确性。服务器版本无显示器接口。
-
多实例 GPU (MIG):可将单个 GPU 安全分区为多达四个 GPU,每个 GPU 显存高达 24GB,从而能够为各种工作负载安全、高效地分配资源,从而最大限度地提高性能和灵活性。
-
散热:RTX PRO 6000 三个版本的散热完全不同,服务器版本使用的是企业级 Tesla 系列常见的被动散热,功耗 600W,能够装八卡机,承载数据中心级大型应用。工作站版本是双风扇主动散热,宽度也较正常双宽版本厚,功耗 600W,适合个人工程师或者小型工作室 1-4 卡机自用。Max-Q 工作站版本是单涡轮风扇散热,功耗 300W,非常有性价比,但相对的性能阉割约 20%,复杂任务可能卡顿。
RTX PRO 6000 对比其他型号 GPU
NVIDIA RTX PRO 6000 Blackwell 服务器版是首款专为企业 AI 和视觉计算打造的由 NVIDIA Blackwell 提供支持的数据中心 GPU,旨在加速各行各业要求最苛刻的 AI 和图形应用程序。那么对比 Blackwell 架构的消费级旗舰 5090 或者上一代 Ada Lovelace 架构的主流产品 L40S 和RTX6000 ADA,RTX PRO 6000 又有哪些优势呢?
显而易见的,Blackwell 架构中 RTX Pro 6000 与RTX 5090 采用 PCIe 5.0,对比使用 PCIe 4.0 的RTX6000 ADA 和L40S,PCIe 5.0 的带宽速度是 PCIe 4.0 的两倍,能够显著减少 CPU 和GPU 内存之间交换数据时的 I/O 瓶颈,通过提高 CPU 内存的数据传输速度,为 AI、数据科学和 3D 建模等数据密集型任务提供更快的性能。
在理论计算性能方面,RTX Pro 6000 服务器版本展现出巨大的优势。通过第 5代的 Tensor Core,RTX PRO 6000 服务器版本能够提供高达 4000 AI TOPS 的FP4 算力。NVIDIA 实测,RTX Pro 6000 服务器版本 GPU 对比 L40S,在大型语言模型 (LLM) 推理吞吐量提高 5 倍,基因组测序速度提高近 7 倍,文本到视频生成的速度提高 3.3 倍。 推荐系统的推理速度提高了近 2 倍,渲染速度提高了 2 倍以上。可以说全面超越了上一代旗舰显卡的性能。
RTX Pro 6000 服务器版本支持多实例 GPU(MIG)技术,可将单个 GPU 划分为多达 4个完全隔离的实例,每个实例拥有独立的显存、缓存和计算核心。RTX PRO 6000 还是首款通过 NVIDIA Confidential Computing 实现安全 AI 的通用 GPU,通过硬件级安全保护敏感数据和 AI 模型免受未经授权的访问,这对于多用户的 AI 开发与应用提供了更安全的环境。而 RTX 5090、RTX 6000 Ada 和L40S 均不支持 MIG 和NVIDIA Confidential Computing。
RTX Pro 6000 服务器版本还提供了更大的显存容量和性能。高达 96GB 的DDR7 不仅容量是 RTX 509032GB 的3 倍,更带有 ECC 自动纠错功能,对于进行 AI 工作者做尖端研究、训练万亿参数模型,或在不进行大量量化的情况下运行大型的模型,是最令人满意的选择。
总结
RTX PRO 6000 服务器版本拥有比上一代主流产品 RTX 6000ADA 和L40S 更高的 FP4 AI 推理性能,拥有比同代架构的 RTX 5090 更强大更稳定的显存性能,是保持了超强性能的同时,又稳定处理好了散热及功耗,均衡了 AI 性能及图形处理能力的“通用 GPU”,拥有极高的性价比,非常适用于数据中心企业级生成式 AI 推理任务、AI 视频渲染、医疗影像处理、气候模拟及量子计算等高性能科学计算。
如果想要了解更多的对比信息,以及这几款 GPU 的性能参数报告,可以加入智算行业社群获取。你也可以在社群里,和大家一起谈谈你的观点与见解。