NVIDIA Grace Blackwell GB200

NVIDIA GB200 NVL72

Solution de pointe pour la nouvelle ère du calcul.

Aperçu

Traitez en temps réel des modèles complexes dotés de plusieurs billions de paramètres

Le système NVIDIA GB200 NVL72 permet de connecter 36 CPU Grace et 72 GPU Blackwell au sein d'une configuration rackable à refroidissement liquide. Il assure la mise en œuvre d'un domaine NVIDIA NVLink™ à 72 GPU pour fournir en temps réel des performances d’inférence jusqu'à 30 fois plus rapides avec des grands modèles de langage (LLM) dotés de billions de paramètres.

La puce GB200 Grace Blackwell Superchip est un composant-clé du système NVIDIA GB200 NVL72 puisqu'elle contribue à connecter deux GPU NVIDIA Blackwell Tensor Core et un CPU NVIDIA Grace™ via l’interface d’interconnexion NVLink-C2C pour les deux GPU Blackwell.

Architecture rackable Blackwell pour l’entraînement et l’inférence en temps réel de modèles dotés de plusieurs billions de paramètres

Le système NVIDIA GB200 NVL72 constitue un ordinateur dédié au calcul Exascale utilisable via un rack unique. En s'appuyant sur 72 GPU NVIDIA Blackwell interconnectés via le domaine NVIDIA NVLink le plus évolué à ce jour, le système de commutation NVLink permet de mettre en œuvre des communications GPU à faible latence à un débit record de 130 téraoctets par seconde (To/s) pour les charges de travail d’IA et de calcul haute performance (HPC).

Points-clés

Moteur du calcul accéléré et des applications d'IA de nouvelle génération

Inférence LLM

30X

Entraînement LLM

4X

Efficacité énergétique

25X

Traitement des données

18X

Inférence LLM et efficacité énergétique - Latence jeton-à-jeton (TTL) = 50 ms en temps réel ; Latence du premier jeton (FTL) = 5 s ; Longueur de séquence = 32 768 en entrée / 1024 en sortie. NVIDIA HGX™ H100 mis à l'échelle via InfiniBand (IB) vs GB200 NVL72. Entraînement 1.8T MOE 4096x avec HGX H100 mis à l'échelle via IB vs 456x avec GB200 NVL72 mis à l'échelle via IB. Taille de cluster : 32 768
Charge de travail portant sur des requêtes de jointure et d'agrégation de base de données avec compression Snappy / Deflate dérivées de TPC-H Q4. Implémentation de requêtes personnalisées pour un CPU x86, un GPU unique H100 et un GPU unique avec GB200 NLV72 vs un CPU Intel Xeon 8480+
Mesures de performance susceptibles d’être modifiées.

Inférence des LLM en temps réel

Le système GB200 NVL72 introduit des fonctionnalités de pointe et un moteur de transformation de deuxième génération capable de prendre en charge l'IA FP4. Grâce à un couplage via la technologie d’interconnexion NVIDIA NVLink de cinquième génération, il offre des performances d’inférence LLM en temps réel jusqu'à 30 fois plus rapides pour le traitement de modèles de langage comportant des billions de paramètres. Cette avancée est rendue possible par l'émergence d'une nouvelle génération de cœurs Tensor capables d'atteindre de nouveaux formats de précision tout en étant optimisés pour l’inférence IA à haut débit et à faible latence. En outre, le GB200 NVL72 utilise NVLink et le refroidissement liquide pour créer un rack massif de 72 GPU capable de surmonter les goulots d’étranglement au niveau de la couche de communication.

Entraînement à grande échelle

Le GB200 NVL72 inclut un moteur de transformation de seconde génération à précision FP8 qui fournit des capacités de calcul jusqu'à 4 fois plus rapides pour un traitement évolutif des grands modèles de langage à l'échelle. Ce gain de performance repose sur la technologie NVLink de cinquième génération, qui permet un débit d’interconnexion GPU-vers-GPU de 1,8 To/s avec les solutions de mise en réseau InfiniBand et l'environnement logiciel NVIDIA Magnum IO™.

Infrastructure écoénergétique

Les racks GB200 NVL72 refroidis par liquide réduisent l'empreinte carbone et la consommation d'énergie des Data Centers. Le refroidissement liquide augmente la densité de calcul, réduit l'espace au sol utilisé et facilite les communications GPU à bande passante élevée et à faible latence avec les grandes architectures de domaine NVLink. Par rapport à l’infrastructure NVIDIA H100 à refroidissement par air, le système GB200 fournit 25 fois plus de performances à une puissance similaire, tout en réduisant la consommation d'eau.

Traitement des données

Les bases de données jouent un rôle essentiel dans la gestion, le traitement et l’analyse d’importants volumes d'informations au sein des entreprises. Le GB200 tire parti de la bande passante élevée de l’interface NVLink-C2Cet des moteurs de décompression dédiés de l'architecture NVIDIA Blackwell de manière à accélérer jusqu’à 18 fois le pipeline des requêtes de bases de données par rapport au traitement CPU, mais aussi à réduire jusqu’à 5 fois le coût total de possession.

NVIDIA GB200 NVL4

NVIDIA GB200 NVL4

Le NVIDIA GB200 NVL4 préfigure l’avenir du HPC convergé et de l’IA en offrant des performances révolutionnaires grâce à un pont reliant quatre GPU NVIDIA NVLink Blackwell unifiés à deux CPU Grace via l’interconnexion NVLink-C2C. Compatible avec les serveurs modulaires NVIDIA MGX™ à refroidissement liquide, il offre jusqu’à deux fois plus de performances que la génération précédente en matière de calcul scientifique, d'entraînement de l’IA pour les sciences et d'applications d’inférence.

Caractéristiques

Avancées technologiques

Architecture NVIDIA Blackwell

L’architecture NVIDIA Blackwell fournit des innovations cruciales pour le calcul accéléré et va définir la nouvelle ère de l'IA générative avec des performances, une efficacité et une évolutivité sans précédent.

CPU NVIDIA Grace

Le CPU NVIDIA Grace Superchip est un processeur révolutionnaire conçu pour les Data Centers modernes qui exécutent des applications d'IA, de Cloud et de calcul haute performance (HPC). Il fournit des performances et une bande passante mémoire exceptionnelles avec une efficacité énergétique deux fois plus élevée que les processeurs de serveur traditionnels.

NVIDIA NVLink de 5e génération

Pour exploiter tout le potentiel de l'exascale calcul et des modèles d'IA à plusieurs billions de paramètres, une communication rapide et transparente entre chaque GPU d'un cluster de serveurs est nécessaire. La cinquième génération de NVLink est une interconnexion évolutive qui libère les performances accélérées pour les modèles d'IA à plusieurs billions de paramètres.

NVIDIA Networking

Le réseau du Data Center joue un rôle crucial dans les avancées et les performances de l'IA, servant d'épine dorsale à l'entraînement des modèles d'IA distribués et aux performances de l'IA générative.  Les DPU NVIDIA Quantum-X800 InfiniBand, NVIDIA Spectrum™-X800 Ethernet et NVIDIA® BlueField®-3 permettent une évolutivité efficace sur des centaines et des milliers de GPU Blackwell pour des performances d'applications optimales.

Usine d'IA pour la nouvelle révolution industrielle

NVIDIA Mission Control

NVIDIA Mission Control alimente tous les aspects des opérations de l'usine d'IA NVIDIA GB200 NVL72, de l’orchestration des charges de travail via le domaine NVLink à 72 GPU à l’intégration au sein des installations. Cette solution à hautes performances offre une agilité instantanée pour l’inférence et l'entraînement des modèles tout en fournissant une intelligence Full-Stack pour des infrastructures axées sur la résilience. Mission Control permet à chaque entreprise de mettre à profit l'IA avec une efficacité de niveau hyperscale, ce qui accélère les expérimentations reposant sur l'IA.

Spécifications

GB200 NVL721 - Spécifications¹

  GB200 NVL72 GB200 Grace Blackwell Superchip
Configuration 36 CPU Grace | 72 GPU Blackwell 1 CPU Grace | 2 GPU Blackwell
NVFP4 Tensor Core2 1 440 | 720 PFlops 40 | 20 PFlops
FP8/FP6 Tensor Core2 720 PFlops 20 PFlops
INT8 Tensor Core2 720 Pops 20 Pops
FP16/BF16 Tensor Core2 360 PFlops 10 PFlops
TF32 Tensor Core2 180 PFlops 5 PFlops
FP32 5760 TFLOPS 160 TFLOPS
FP64 / FP64 Tensor Core 2880 TFlops 80 TFlops
Mémoire GPU | Bande passante 13,4 To HBM3E | 576 To/s 372 Go HBM3E | 16 To/s
Bande passante NVLink 130 To/s 3,6 To/s
Nombre de cœurs CPU 2592 cœurs Arm® Neoverse V2 72 cœurs Arm Neoverse V2
Mémoire CPU | Bande passante 17 To LPDDR5X | 14 To/s 480 Go LPDDR5X | 512 Go/s

NVIDIA GB300 NVL72

Le système NVIDIA GB300 NVL72 se caractérise par une architecture rackable à refroidissement liquide intégral qui incorpore 72 GPU NVIDIA Blackwell Ultra et 36 CPU NVIDIA Grace™ basés sur Arm® au sein d'une plateforme unique spécifiquement conçue pour les tâches d'inférence TTS (Test-Time Scaling) et de raisonnement des modèles d'IA. Les usines d’IA alimentées par le GB300 NVL72, qui mettent à profit NVIDIA Quantum-X800 InfiniBand ou Spectrum-X Ethernet, les cartes ConnectX-8 SuperNIC et la solution logicielle NVIDIA Mission Control, fournissent des performances de sortie 50 fois plus élevées que la plateforme NVIDIA Hopper.

Démarrage

Ne manquez aucune information

Inscrivez-vous pour savoir quand NVIDIA Blackwell sera disponible.