Analyse détaillée de la puce NVIDIA GH200, des serveurs et du réseau de cluster

Serveurs GPU OEM traditionnels : processeur Intel/AMD x86 + GPU NVIDIA

Avant 2024, les serveurs NVIDIA et les serveurs tiers équipés de GPU NVIDIA étaient basés sur des machines à CPU x86. Les GPU étaient connectés à la carte mère via des cartes PCIe ou des modules à 8 cartes.

nœud GPU 8xA100 typique
Topologie matérielle typique d'un hôte A8 à 100 cartes

À ce stade, le processeur et le processeur graphique étaient indépendants. Les fabricants de serveurs pouvaient assembler leurs serveurs en achetant des modules de processeur graphique (par exemple, 8*A100). Le choix des processeurs Intel ou AMD dépendait de considérations de performances, de coût ou de rentabilité.

Serveurs GPU OEM de nouvelle génération : CPU NVIDIA + GPU NVIDIA

Avec l'avènement de la puce NVIDIA GH200 en 2024, les GPU de NVIDIA ont commencé à inclure des CPU intégrés.

  • Ère de l'informatique de bureau : le processeur était le composant principal, suivi du GPU (carte graphique). La puce du processeur pouvait intégrer une puce GPU, appelée carte graphique intégrée.
  • L'ère des centres de données IA : le GPU a pris le rôle principal, le CPU devenant secondaire. La puce/carte GPU intègre désormais le CPU.

En conséquence, le niveau d’intégration de NVIDIA a augmenté et ils ont commencé à proposer des machines complètes ou des racks complets.

Puce CPU : Grace (ARM) est conçue sur la base de l'architecture ARMv9.

Puce GPU : Hopper/Blackwell/…

Par exemple, la série Hopper a initialement lancé le H100-80GB, suivi par d'autres itérations :

  • H800 : Une version réduite du H100.
  • H200 : Une version améliorée du H100.
  • H20 : Une version réduite du H200, nettement inférieure au H800.

Exemples de dénomination de produits à puce

Processeur Grace + GPU Hopper 200 (H200)

GH200 sur une seule carte :

GH200 sur une seule carte
Puce NVIDIA GH200 (carte) Rendu : à gauche : puce CPU Grace ; à droite : puce GPU Hopper.

Processeur Grace + GPU Blackwell 200 (B200)

GB200 sur une seule carte (module), avec une consommation d'énergie élevée et un refroidissement liquide intégré :

avec une consommation d'énergie élevée et un refroidissement liquide intégré
Rendu NVIDIA GB200 : Un module comprenant 2 CPU Grace + 4 GPU B200, avec un module de refroidissement liquide intégré.

72 B200 forment une armoire OEM NVL72 :

72 B200 forment une armoire OEM NVL72
Boîtier NVIDIA GB200 NVL72

Conception interne des serveurs GH200

Diagramme logique de la puce GH200

Intégration du CPU, du GPU, de la RAM et de la VRAM dans une seule puce

Le schéma logique d'une seule puce NVIDIA GH200
Le schéma logique d'une seule puce NVIDIA GH200

Matériel de base

Comme l'illustre le schéma, une seule superpuce GH200 intègre les composants de base suivants :

  • Un processeur NVIDIA Grace
  • UN Nvidia H200 GPU
  • Jusqu'à 480 Go de mémoire CPU
  • 96 Go ou 144 Go de VRAM GPU

Interconnexions matérielles de puces

Le processeur se connecte à la carte mère via quatre voies PCIe Gen5 x16 :

  • Chaque voie PCIe Gen5 x16 offre une vitesse bidirectionnelle de 128 Go/s
  • Par conséquent, la vitesse totale pour quatre voies est de 512 Go/s

Le CPU et le GPU sont interconnectés à l'aide de la technologie NVLink® Chip-2-Chip (NVLink-C2C) :

  • 900 Go/s, soit sept fois plus rapide que le PCIe Gen5 x16

Les interconnexions GPU (au sein du même hôte et entre les hôtes) utilisent 18x ​​NVLINK4 :

  • 900GB / s

NVLink-C2C fournit ce que NVIDIA appelle la « cohérence mémoire », garantissant la cohérence entre la mémoire et la VRAM. Les avantages incluent :

  • Mémoire unifiée et VRAM jusqu'à 624 Go, permettant aux utilisateurs de l'utiliser sans distinction, améliorant ainsi l'efficacité du développeur
  • Accès simultané et transparent à la mémoire du CPU et du GPU par le CPU et le GPU
  • La VRAM du GPU peut être sursouscrite, en utilisant la mémoire du CPU si nécessaire, grâce à la large bande passante d'interconnexion et à la faible latence

Ensuite, examinons les composants matériels tels que le processeur, la mémoire et le GPU.

CPU et mémoire

Processeur ARMv72 à 9 cœurs

Le processeur Grace à 72 cœurs est basé sur l'architecture de base Neoverse V2 Armv9.

Mémoire LPDDR480X (DDR basse consommation) de 5 Go

  • Prend en charge jusqu'à 480 Go de mémoire LPDDR5X
  • Bande passante mémoire de 500 Go/s par CPU

Pour comprendre cette vitesse dans le contexte du stockage :

Prend en charge jusqu'à 480 Go de mémoire LPDDR5X

Comparaison de trois types de mémoire : DDR, LPDDR et HBM

La plupart des serveurs (la grande majorité) utilisent de la mémoire DDR, connectée au processeur via des emplacements DIMM sur la carte mère. Les première à quatrième générations de LPDDR correspondent aux versions basse consommation de DDR1 à DDR4, couramment utilisées dans les appareils mobiles.

  • La LPDDR5 est conçue indépendamment de la DDR5 et a même été produite avant la DDR5
  • Il est directement soudé au processeur, non amovible et non extensible, ce qui augmente le coût mais offre des vitesses plus rapides
  • Un type similaire est le GDDR, utilisé dans les GPU comme le RTX 4090

GPU et VRAM

Puissance de calcul du GPU H200

Les détails sur la puissance de calcul du GPU H200 sont fournis ci-dessous.

Options de VRAM

Deux types de VRAM sont pris en charge, avec un choix entre :

  • 96GB HBM3
  • HBM144e 3 Go, offrant une bande passante de 4.9 To/s, soit 50 % de plus que le H100 SXM.

Cette variante place deux puces GH200 sur une seule carte, doublant ainsi le CPU, le GPU, la RAM et la VRAM, avec une interconnexion complète entre les deux puces. Par exemple, dans un serveur pouvant accueillir 8 cartes :

  • En utilisant des puces GH200 : le nombre de CPU et de GPU est de 8 * {72 CPU Grace, 1 GPU H200}
  • En utilisant la variante GH200 NVL2 : le nombre de CPU et de GPU est de 8 * {144 CPU Grace, 2 GPU H200}

Spécifications des produits GH200 et GH200 NVL2 (puissance de calcul)

Produit GH200 et GH200 NVL2

Les spécifications du produit NVIDIA GH200 sont fournies. La section supérieure comprend le processeur, la mémoire et d'autres paramètres, tandis que les paramètres du GPU commencent à partir de « FP64 ».

Serveurs et réseaux GH200

Il existe deux spécifications de serveur, correspondant aux cartes PCIe et aux cartes NVLINK.

NVIDIA MGX avec GH200 : hôte et réseau OEM

Le diagramme ci-dessous illustre une méthode de mise en réseau pour un nœud à carte unique :

NVIDIA MGX avec GH200
  • Chaque nœud contient une seule puce GH200, fonctionnant comme une carte PCIe sans NVLINK.
  • La carte réseau ou la carte accélératrice de chaque nœud (DPU BlueField-3 (BF3)) se connecte à un commutateur.
  • Il n'y a pas de connexion directe entre les GPU entre les nœuds ; la communication est réalisée via le réseau hôte (GPU -> CPU -> NIC).
  • Convient aux charges de travail HPC et aux charges de travail d'IA de petite à moyenne échelle.

NVIDIA GH200 NVL32 : boîtier 32 cartes OEM

L'armoire 32 cartes connecte 32 puces GH200 dans un seul module GPU logique à l'aide de NVLINK, d'où le nom NVL32.

Carte graphique NVIDIA GH200 NVL32

Le module NVL32 est essentiellement une armoire :

  • Une seule armoire fournit 19.5 To de mémoire et de VRAM.
  • NVLink TLB permet à n'importe quel GPU d'accéder à n'importe quelle mémoire/VRAM dans l'armoire.
Le module NVL32 est essentiellement une armoire

Il existe trois types de méthodes d'accès à la mémoire/VRAM dans le NVIDIA GH200 NVL32, notamment la mémoire GPU étendue (EGM).

Plusieurs armoires peuvent être interconnectées via un réseau pour former un cluster, adapté aux charges de travail d'IA à grande échelle.

Laisser un commentaire

Remonter en haut