La NVIDIA HGX B200 est la dernière plate-forme de calcul hautes performances de NVIDIA, basée sur l'architecture GPU Blackwell. Elle intègre plusieurs technologies et composants avancés conçus pour offrir des performances de calcul et une efficacité énergétique exceptionnelles.
La hauteur complète du système avec le module refroidi par air HGX B200 atteint 10U, le module refroidi par air HGX B200 lui-même représentant environ 6U.
Serveur Exxact TensorEX 10U HGX B200
6 alimentations redondantes (5250 + 3) de 3 XNUMX W
SuperServer SYS-A22GA-NBRT (10U) 6 alimentations redondantes (5250 + 3) de 3 XNUMX W
Lors du OCP Global Summit 2024, plusieurs nouvelles photographies du NVIDIA HGX B200 ont été présentées. Par rapport au NVIDIA HGX A100/H100/H200, un changement important est le déplacement de la puce NVLink Switch au centre du composant, plutôt que sur un côté. Ce changement minimise la distance de liaison maximale entre les GPU et la puce NVLink Switch. Le NVLink Switch ne se compose désormais que de deux puces, contre quatre dans la génération précédente, et leur taille a considérablement augmenté.
Près des connecteurs de bord, un retimer PCIe a remplacé le NVSwitch. Ces retimers utilisent généralement des dissipateurs thermiques plus petits car leur TDP (Thermal Design Power) est d'environ 10 à 15 W.
Carte mère HGX B200 sans dissipateurs thermiques – 1
Carte mère HGX B200 sans dissipateurs thermiques – 2
Puce de resynchronisation de la carte mère HGX B200 Dissipateur thermique
La sérigraphie sur la surface supérieure du connecteur EXAMAX indique qu'il s'agit d'une carte mère Umbriel GB200 SXM6 8 GPU, avec le numéro de pièce : 675-26287-00A0-TS53. Une inspection minutieuse révèle que le fabricant de la puce Retimer est Astera Labs.
Informations sur le numéro de pièce NVIDIA HGX B200
Gros plan sur la puce de resynchronisation NVIDIA HGX B200 d'Astera Labs
Le périmètre de la carte mère HGX B200 est enfermé dans un cadre de montage en alliage d'aluminium noir utilisé pour fixer les dissipateurs thermiques et fixer les matériaux thermiques.
Cadre de montage du dissipateur thermique de la carte mère NVIDIA HGX B200
Vous trouverez ci-dessous des images de la puce NVLink Switch présentée au Sommet mondial OCP 2024.
Considérations relatives à la solution de refroidissement liquide pour HGX B200
NVIDIA a défini deux valeurs de TDP (Thermal Design Power) pour le B200 : 1200 1000 W pour le refroidissement liquide et 100 700 W pour le refroidissement par air. De plus, le B100 offre une plage de 700 W similaire à celle du précédent H4 SXM, ce qui permet aux fabricants OEM de réutiliser la conception de refroidissement par air de 200 W. Des limites de TDP plus élevées sont corrélées à des fréquences d'horloge plus élevées et au nombre d'unités arithmétiques activées, améliorant ainsi les performances. En fait, les performances FP1200 (Tensor Core) pour le B20/200 1000 W sont de 18 PFLOPS, pour le B100/700 14 W de XNUMX PFLOPS et pour le BXNUMX/XNUMX W de XNUMX PFLOPS.
Le système OAI utilise une boucle de plaques froides 4×2 (c'est-à-dire un tuyau d'eau), avec un liquide froid s'écoulant initialement dans les plaques froides sur OAM 1-4, absorbant la chaleur puis se réchauffant légèrement avant de passer à travers les plaques froides sur OAM 5-8. Cela ressemble au refroidissement par air, où le flux d'air traverse séquentiellement les dissipateurs thermiques de deux processeurs.
En revanche, une configuration de boucle de plaque froide 8×1 distribue le liquide froid de manière uniforme aux 8 OAM, évitant ainsi des températures plus élevées dans la moitié des OAM, mais entraînant potentiellement des coûts plus élevés en raison de la tuyauterie supplémentaire.
Dans la spécification OAM 1.5, l'assemblage de la plaque froide est illustré dans une disposition 4-parallèle-2-série.
Configuration 4 parallèles-2 séries contre 8×1
Module de refroidissement liquide H3C R5500 G6 H100 4-parallèle-3-série (2 GPU en parallèle + 1 commutateur en série)
Sur la base des configurations de plaques froides H100 ci-dessus, les considérations pour la solution de refroidissement liquide B200 sont les suivantes : les 8 GPU et les 2 commutateurs sont divisés en 2 groupes. Chaque groupe se compose de 4 GPU et d'un commutateur. Les deux groupes utilisent le même schéma de refroidissement liquide. Chaque groupe dispose de 1 ports d'entrée et de 2 ports de sortie pour les plaques froides. Les 2 GPU supérieurs sont en parallèle et connectés en série avec le commutateur, et les 2 GPU inférieurs sont également en parallèle et connectés en série avec le même commutateur, ce qui donne 2 ports d'entrée/sortie sur la plaque froide du commutateur.
Alternativement, le collecteur peut être conçu avec 6 entrées et 6 sorties, où 4 des entrées et sorties sont utilisées pour les 8 GPU (configuration 4-parallèle-2-série), et les 2 autres entrées et 2 sorties sont destinées aux 2 commutateurs, chacun connecté au collecteur. Cette approche nécessite une prise en compte minutieuse du chemin de routage et des contraintes d'espace pour la tuyauterie. Cependant, quelle que soit la solution choisie, une évaluation détaillée de la simulation et une conception pratique du système sont nécessaires.
Produits associés:
- OSFP-800G-FR4 800G OSFP FR4 (200G par ligne) Module émetteur-récepteur optique PAM4 CWDM Duplex LC 2km SMF $5000.00
- OSFP-800G-2FR2L 800G OSFP 2FR2 (200G par ligne) PAM4 1291/1311nm 2km DOM Duplex LC SMF Module émetteur-récepteur optique $4500.00
- OSFP-800G-2FR2 800G OSFP 2FR2 (200G par ligne) PAM4 1291/1311nm 2km DOM double CS SMF Module émetteur-récepteur optique $4500.00
- OSFP-800G-DR4 800G OSFP DR4 (200G par ligne) PAM4 1311nm MPO-12 500m SMF DDM Module émetteur-récepteur optique $3500.00
- NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 Module émetteur-récepteur optique SMF $1200.00
- NVIDIA MMA4Z00-NS-FLT Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $850.00
- NVIDIA MMS4X00-NM Compatible 800Gb/s double port OSFP 2x400G PAM4 1310nm 500m DOM double MTP/MPO-12 Module émetteur-récepteur optique SMF $1100.00
- NVIDIA MMA4Z00-NS Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $750.00
- NVIDIA MMS1Z00-NS400 Compatible 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12 avec Module émetteur-récepteur optique FEC $800.00
- NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Module Émetteur-Récepteur Optique $800.00
- Module émetteur-récepteur optique NVIDIA MMA1Z00-NS400 Compatible 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC $650.00
- NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m sur OM3/50m sur OM4 MTP/MPO-12 Module émetteur-récepteur optique FEC multimode $650.00
- Module émetteur-récepteur optique OSFP 4x50G FR2 PAM400 4nm 4km DOM double Duplex LC SMF Compatible NVIDIA MMS1310X2-NM $1350.00
- Module émetteur-récepteur optique OSFP-XD-1.6T-4FR2 1.6T OSFP-XD 4xFR2 PAM4 1291/1311nm 2km SN SMF $17000.00
- OSFP-XD-1.6T-2FR4 1.6T OSFP-XD 2xFR4 PAM4 2x CWDM4 TBD Module émetteur-récepteur optique double duplex LC SMF $22400.00
- Module émetteur-récepteur optique OSFP-XD-1.6T-DR8 1.6T OSFP-XD DR8 PAM4 1311nm 2km MPO-16 SMF $12600.00