Introduction
Le NVIDIA GB200 est un module de calcul intensif hautement intégré basé sur l'architecture Blackwell de NVIDIA. Ce module combine deux GPU NVIDIA B200 Tensor Core et un CPU NVIDIA Grace, dans le but de fournir des performances d'IA sans précédent.
Avec l'intégration du refroidissement liquide, divers acteurs de l'industrie travaillent ensemble pour mettre en œuvre cette technologie. Nous pensons qu'à mesure que le contenu généré par l'IA (AIGC) entraîne une consommation d'énergie croissante des puces informatiques IA, les serveurs ont urgemment besoin de méthodes de refroidissement plus efficaces. Le leader mondial des puces IA NVIDIA (avec son nouveau GB200 doté d'un refroidissement liquide) et le fabricant de serveurs IA Supermicro (qui prévoit d'étendre les racks refroidis par liquide au deuxième trimestre de l'exercice 2) soutiennent la technologie de refroidissement liquide. En outre, la collaboration industrielle nationale progresse, comme en témoigne la publication d'un livre blanc sur la technologie de refroidissement liquide par les trois principaux opérateurs de télécommunications en juin 24, envisageant une application à plus de 2023 % de l'échelle du projet du refroidissement liquide d'ici 50 et au-delà. En résumé, le refroidissement liquide est promu par les fabricants de puces en amont, les fabricants de serveurs, les fournisseurs d'IDC en aval et les opérateurs de télécommunications, ce qui devrait stimuler la demande d'équipements de refroidissement liquide et la construction de nouveaux centres de données refroidis par liquide. Selon les prévisions de DellOro, la taille du marché mondial du refroidissement liquide approchera les 2025 milliards de dollars d'ici 2.
Introduction de base au GH200 et au GB200
La comparaison des paramètres du GH200 et du GB200 peut fournir une compréhension plus claire et plus intuitive du GB200.
Le GH200, commercialisé par NVIDIA en 2023, combine un GPU H200 avec un CPU Grace, où un CPU Grace correspond à un GPU H200. Le GPU H200 peut avoir jusqu'à 96 Go ou 144 Go de mémoire. Le CPU Grace et le GPU Hopper sont interconnectés via NVLink-C2C avec une bande passante de 900 Go/s, et la consommation électrique correspondante est de 1000 W.
Le 19 mars 2024, NVIDIA a présenté sa puce d'IA la plus puissante, la GB200, lors du GTC annuel. Par rapport à la H100, la puissance de calcul de la GB200 est six fois supérieure et, pour des tâches multimodales spécifiques, sa puissance de calcul peut atteindre 30 fois celle de la H100, tout en réduisant la consommation d'énergie de 25 fois. Contrairement au GH200, la GB200 se compose d'un processeur Grace et de deux GPU Blackwell, doublant ainsi la puissance de calcul et la mémoire du GPU. Le processeur et le GPU sont toujours interconnectés via NVLink-C2C avec une bande passante de 900 Go/s, et la consommation électrique correspondante est de 2700 W.
Compte tenu de sa consommation électrique élevée de 2700 200 W, le GB200 nécessite un refroidissement efficace. Le GB72 NVLXNUMX est un système d'extension à l'échelle du rack refroidi par liquide multi-nœuds adapté aux charges de travail à forte intensité de calcul.
Serveurs et armoires refroidis par liquide de divers fabricants
Le GB200 est principalement disponible en deux configurations d'armoire :
GB200 NVL72 (disposition 10+9+8)
GB200 NVL36x2 (disposition 5+9+4)
Armoire GB200 NVL72
L'armoire GB200 NVL72 a une consommation électrique totale d'environ 120 kW. Alors que les armoires CPU standard prennent en charge jusqu'à 12 kW par rack, les armoires H100 à refroidissement par air de plus haute densité prennent généralement en charge environ 40 kW par rack. En général, pour les armoires simples dépassant 30 kW, le refroidissement liquide est recommandé. C'est pourquoi l'armoire GB200 NVL72 utilise une solution de refroidissement liquide.
L'armoire GB200 NVL72 se compose de 18 nœuds de calcul 1U et de 9 NVSwitches. Chaque nœud de calcul mesure 1U de haut et contient 2 cartes Bianca. Chaque carte Bianca comprend 1 CPU Grace et 2 GPU Blackwell. Le plateau NVSwitch est doté de deux ASIC NVSwitch28.8 à 5 Gb/s.
Cette configuration d'armoire est actuellement rarement déployée car la plupart des infrastructures de centres de données, même avec refroidissement liquide direct (DLC), ne peuvent pas prendre en charge une densité de rack aussi élevée.
L'armoire NVL200x36 GB2 se compose de deux armoires interconnectées. Cette configuration devrait être la plus couramment utilisée pour les racks GB200. Chaque rack contient 18 processeurs Grace et 36 GPU Blackwell. Les deux armoires maintiennent une interconnexion complète non bloquante, prenant en charge la communication entre les 72 GPU du NVL72. Chaque nœud de calcul mesure 2U de haut et contient 2 cartes Bianca. Chaque plateau NVSwitch dispose de deux puces ASIC NVSwitch28.8 de 5 Gb/s, chaque puce ayant 14.4 Gb/s vers le fond de panier et 14.4 Gb/s vers le plan avant. Chaque plateau NVSwitch dispose de 18 cages OSFP à double port de 1.6 T, connectées horizontalement à une paire de racks NVL36.
Lors du salon international de l'informatique de Taipei 2024, le GB200 NVL72 a été présenté au public. La plupart des fabricants ont présenté des configurations à armoire unique, telles que Wiwynn, ASRock, GIGABYTE, Supermicro et Inventec, avec des serveurs de nœuds de calcul 1U. GIGABYTE, Inventec et Pegatron ont également présenté des serveurs de nœuds de calcul 2U, faisant référence à cette configuration sous le nom de GB200 NVL36.
Ensuite, nous présenterons les serveurs et armoires refroidis par liquide de différents fabricants.
NVIDIA
Lors du GTC 2024, NVIDIA a présenté un rack configuré avec le DGX GB200 NVL72, entièrement interconnecté via NVLink. L'ensemble du rack pèse environ 1.36 tonne (3,000 2023 livres). Ce système est une version améliorée du système de rack Grace-Hopper Superchip présenté par NVIDIA en novembre XNUMX, mais avec plus de deux fois plus de GPU.
Système phare
Le système phare est un rack unique avec une consommation électrique de 120 kW. La plupart des centres de données peuvent prendre en charge jusqu'à 60 kW par rack. Pour ceux qui ne peuvent pas déployer un seul rack de 120 kW ou un SuperPOD à 8 racks approchant 1 MW, la configuration d'armoire NVL36x2 peut être utilisée.
Au sommet de l'armoire se trouvent deux commutateurs Spectrum à 52 ports (48 ports Gigabit RJ45 + 4 ports d'agrégation QSFP28 100 Gbit/s). Ces commutateurs gèrent et transmettent diverses données provenant des nœuds de calcul, des commutateurs NVLink et des châssis d'alimentation qui composent le système.
Sous ces commutateurs se trouvent trois des six châssis d'alimentation de l'armoire, les trois autres étant situés en bas. Ces châssis d'alimentation alimentent en électricité l'armoire de 120 kW. On estime que six blocs d'alimentation de 415 V et 60 A suffisent à répondre à cette exigence, avec une certaine redondance intégrée à la conception. Le courant de fonctionnement de ces blocs d'alimentation peut dépasser 60 A. Chaque appareil est alimenté via une barre omnibus à l'arrière de l'armoire.
Sous les trois châssis d'alimentation supérieurs se trouvent dix nœuds de calcul 1U. Le panneau avant de chaque nœud comporte quatre cartes réseau InfiniBand (quatre cages QSFP-DD à gauche et au centre du panneau avant), formant le réseau de calcul. Le système est également équipé de DPU BlueField-3, censés gérer la communication avec le réseau de stockage. En plus de plusieurs ports de gestion, il existe quatre plateaux de disques E1.S.
Chaque nœud de calcul contient deux processeurs Grace Arm, chacun étant connecté à deux GPU Blackwell. La consommation électrique de chaque nœud varie entre 5.4 kW et 5.7 kW, la majeure partie de la chaleur étant dissipée par refroidissement liquide direct sur puce (DTC).
Commutateurs NV
Sous les dix nœuds de calcul se trouvent neuf commutateurs NVSwitch. Les composants dorés du panneau sont des poignées permettant d'insérer et de retirer les commutateurs.
Chaque commutateur NVLink contient deux puces de commutateur NVLink, qui utilisent également le refroidissement liquide.
Au bas de l’armoire, sous les neuf NVSwitches, se trouvent huit nœuds de calcul 1U.
À l'arrière de l'armoire, une conception de barre omnibus à connexion aveugle est utilisée, ainsi que des connecteurs pour fournir du liquide de refroidissement et des connexions NVLink à chaque appareil. Chaque composant nécessite un certain espace de mouvement pour garantir la fiabilité des connexions à connexion aveugle.
Selon Jensen Huang, le liquide de refroidissement pénètre dans le rack à un débit de 2 L/s, avec une température d'entrée de 25 °C et une température de sortie supérieure à 20 °C.
NVIDIA indique que l'utilisation de NVLink en cuivre (fibre optique) à l'arrière de l'armoire peut économiser environ 20 kW d'énergie par armoire. La longueur totale de tous les câbles en cuivre est estimée à plus de 2 kilomètres. Cela explique pourquoi les commutateurs NVLink sont positionnés au milieu de l'armoire, car cela minimise la longueur du câble.
Supermicro
Systèmes NVIDIA MGX™ de Supermicro
Systèmes de superpuces NVIDIA GH1 Grace Hopper™ 200U
Foxconn
Le 18 mars 2024, lors de la conférence GTC de NVIDIA, la filiale de Foxconn Ingrasys a dévoilé le serveur à refroidissement liquide NVL72, qui utilise la puce GB200 de NVIDIA. Ce serveur intègre 72 GPU NVIDIA Blackwell et 36 CPU NVIDIA Grace.
Jensen Huang et Foxconn entretiennent de bonnes relations, avec de multiples collaborations dans le domaine des serveurs et dans d'autres domaines. Le dernier serveur super IA de Foxconn, le DGX GB200, commencera sa production en série au cours du second semestre de l'année. Les produits de la série GB200 seront livrés sous forme de rack, avec un volume de commande estimé à 50,000 200 armoires. Foxconn détient actuellement trois nouveaux produits majeurs dans la série d'armoires système DGX GB72 : DGX NVL32, NVL200 et HGX BXNUMX. Ils sont les grands gagnants de cette transition de génération de plateforme.
La solution de rack à refroidissement liquide IA de nouvelle génération, NVIDIA GB200 NVL72, combine 36 superpuces NVIDIA GB200 Grace Blackwell, qui comprennent 72 GPU basés sur NVIDIA Blackwell et 36 CPU NVIDIA Grace. Ils sont interconnectés via la cinquième génération de NVIDIA NVLink pour former un seul grand GPU.
Technologie Quanta Cloud (QCT)
Lors de l'événement, QCT a présenté son modèle 1U, le QuantaGrid D75B-1U. Sous la structure du système NVIDIA GB200 NVL72, ce modèle peut accueillir 72 appareils dans une seule armoire. Le D75B-1U est équipé de deux superpuces Grace Blackwell GB200. QCT a souligné que le processeur peut accéder à 480 Go de mémoire LPDDR5X et que le GPU est équipé de 144 Go de mémoire à large bande passante HBM3e, tous deux dotés d'accessoires de refroidissement liquide à plaque froide. En termes de stockage, ce serveur 1U peut accueillir huit SSD PCIe E15.S de 1 mm d'épaisseur et un SSD PCIe M.2 2280. Pour l'extension des périphériques PCIe, le D75B-1U peut accueillir deux cartes d'interface double largeur pleine hauteur pleine longueur et deux cartes d'interface demi-hauteur demi-longueur, toutes prenant en charge PCIe 5.0 x16.
Wiwynn
Partenaire important de NVIDIA, Wiwynn est l'une des premières entreprises à se conformer à la norme NVIDIA GB200 NVL72. Lors du GTC 2024, Wiwynn a présenté ses dernières solutions informatiques IA. La nouvelle superpuce NVIDIA GB200 Grace Blackwell prend en charge la dernière plate-forme NVIDIA Quantum-X800 InfiniBand et NVIDIA Spectrum-X800 Ethernet. Cela comprend un nouveau rack de serveur IA refroidi par liquide au niveau du rack, piloté par le système NVIDIA GB200 NVL72. Wiwynn tire parti de ses atouts en matière de transmission de données à haut débit, d'efficacité énergétique, d'intégration de systèmes et de technologies de refroidissement avancées. Son objectif est de répondre aux nouvelles exigences en matière de performances, d'évolutivité et de diversité dans l'écosystème des centres de données.
Wiwynn a également lancé l'UMS100 (Universal Liquid-Cooling Management System), un système avancé de gestion du refroidissement liquide au niveau du rack conçu pour répondre à la demande croissante de puissance de calcul élevée et de mécanismes de refroidissement efficaces à l'ère émergente de l'IA générative (GenAI). Ce système innovant offre une gamme de fonctions, notamment la surveillance en temps réel, l'optimisation de l'énergie de refroidissement, la détection rapide des fuites et le confinement. Il est également conçu pour s'intégrer en douceur aux systèmes de gestion des centres de données existants via l'interface Redfish. Il prend en charge les protocoles standard de l'industrie et est compatible avec diverses unités de distribution de refroidissement (CDU) et armoires latérales.
ASUS
Au Computex Taipei 2024, ASUS a dévoilé plusieurs serveurs IA. Parmi ceux-ci figurent les nouveaux serveurs NVIDIA Blackwell, à savoir les serveurs B100, B200 et GB200, ainsi que les serveurs AMD MI300X. Il existe également des serveurs Intel Xeon 6 et des serveurs AMD EPYC Turin avec un TDP CPU allant jusqu'à 500 W.
Le point fort est l'ASUS ESC AI POD, qui dispose de la version NVIDIA GB200 NVL72.
ASUS a également présenté l'apparence de l'un des nœuds. Dans le châssis 1U, nous pouvons voir l'alimentation par bus et les deux nœuds GB200 refroidis par liquide. Ces nœuds sont équipés de deux superpuces Grace Blackwell GB200, toutes deux recouvertes de plaques froides. Au milieu du châssis, il y a une carte de distribution d'alimentation (PDB) conçue pour convertir le 48 volts DC en 12 volts DC pour alimenter les GPU Blackwell. De plus, cet emplacement de calcul comprend un module de stockage pour les SSD au format E1.S et deux cartes de processeur de données BlueField-3 de la série B3240 au format double largeur pleine hauteur demi-longueur.
Pour les utilisateurs à la recherche d'un processeur Arm à faible coût et de GPU NVIDIA, il existe la double plateforme NVIDIA Grace Hopper GH200, connue sous le nom d'ASUS ESC NM2-E1. Elle combine deux unités CPU et GPU Grace Hopper en un seul système.
Inventec
Lors de l'événement, Inventec a présenté le NVL200 GB72 de niveau armoire aux côtés des serveurs Artemis 1U et 2U. Ces serveurs sont équipés de deux Superchips Grace Blackwell GB200, de cartes réseau ConnectX-7 400 Gb/s InfiniBand et de processeurs de données BlueField-3 400 Gb/s.
- 120 kW par armoire
- Barre omnibus d'alimentation - 1400 XNUMX A
- 8 étagères d'alimentation de 33 kW - 1 + 1 de secours
- Bouchon borgne de refroidissement liquide + bouchon borgne de barre omnibus + bouchon borgne de communication
- Unité de refroidissement de l'armoire arrière connue sous le nom de « Side Car »
Le « Side Car » est une armoire de refroidissement liquide conçue pour accompagner l'armoire serveur, ressemblant à un side-car sur une moto, offrant une solution de refroidissement efficace.
Produits associés:
- NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m sur OM3/50m sur OM4 MTP/MPO-12 Module émetteur-récepteur optique FEC multimode $650.00
- NVIDIA MMA4Z00-NS-FLT Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $850.00
- NVIDIA MMA4Z00-NS Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $750.00
- NVIDIA MMS4X00-NM Compatible 800Gb/s double port OSFP 2x400G PAM4 1310nm 500m DOM double MTP/MPO-12 Module émetteur-récepteur optique SMF $1100.00
- NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 Module émetteur-récepteur optique SMF $1200.00
- NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Module Émetteur-Récepteur Optique $800.00
- Mellanox MMA1T00-HS Compatible 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 Module émetteur-récepteur optique $200.00
- NVIDIA MFP7E10-N010 Compatible 10 m (33 pieds) 8 fibres faible perte d'insertion femelle à femelle câble tronc MPO polarité B APC vers APC LSZH multimode OM3 50/125 $47.00
- NVIDIA MCP7Y00-N003-FLT Compatible 3m (10ft) OSFP double port 800G à 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $275.00
- NVIDIA MCP7Y70-H002 Compatible 2 m (7 pieds) 400G double port 2x200G OSFP à 4x100G QSFP56 câble en cuivre à connexion directe à dérivation passive $155.00
- Câble en cuivre actif NVIDIA MCA4J80-N003-FTF 3 m (10 pieds) 800G double port 2x400G OSFP vers 2x400G OSFP InfiniBand NDR, dessus plat à une extrémité et dessus à ailettes à l'autre $600.00
- NVIDIA MCP7Y10-N002 Compatible 2 m (7 pieds) 800G InfiniBand NDR double port OSFP vers 2x400G QSFP112 Breakout DAC $200.00