Les centres de données traditionnels ont subi une transition d'une architecture à trois niveaux vers une architecture feuille-épine, principalement pour s'adapter à la croissance du trafic est-ouest au sein du centre de données. Alors que le processus de migration des données vers le cloud continue de s'accélérer, la taille des centres de données de cloud computing continue de croître. Les applications telles que la virtualisation et les systèmes hyperconvergés adoptés dans ces centres de données ont entraîné une augmentation significative du trafic est-ouest : selon les données précédentes de Cisco, en 2021, le trafic interne du centre de données représentait plus de 70 % du trafic lié au centre de données. .
En prenant comme exemple la transition de l'architecture traditionnelle à trois niveaux à l'architecture leaf-spine, le nombre de modules optiques requis dans une architecture réseau leaf-spine peut augmenter jusqu'à des dizaines de fois.
Exigences en matière d'architecture réseau pour les clusters d'IA à grande échelle
Compte tenu de la nécessité de réduire les goulots d'étranglement du réseau, l'architecture réseau des clusters d'IA à grande échelle doit répondre aux exigences de bande passante élevée, de faible latence et de transmission sans perte. Les centres de calcul d'IA adoptent généralement une architecture réseau Fat-Tree, qui présente un réseau non bloquant. De plus, pour éviter les goulots d'étranglement d'interconnexion entre les nœuds, NVIDIA utilise NVLink pour permettre une communication efficace entre les GPU. Par rapport au PCIe, NVLink offre des avantages en termes de bande passante plus élevée, servant de base à l'architecture de mémoire partagée de NVIDIA et créant une nouvelle demande d'interconnexions optiques entre les GPU.
Structure du réseau A100 et exigences du module optique
La structure de déploiement de base pour chaque DGX A100 SuperPOD se compose de 140 serveurs (chaque serveur avec 8 GPU) et commutateurs (chaque commutateur avec 40 ports, chaque port à 200G). La topologie du réseau est une structure Fat-Tree InfiniBand (IB). Concernant le nombre de couches réseau, une structure de réseau à trois couches (commutateur serveur-feuille-commutateur spine-commutateur central) est déployée pour 140 serveurs, le nombre correspondant de câbles pour chaque couche étant respectivement de 1120 1124-1120-200. En supposant que des câbles en cuivre soient utilisés entre les serveurs et les commutateurs, et sur la base d'un câble correspondant à deux modules optiques 1G, le rapport GPU:switch:module optique est de 0.15:4:1. Si un réseau entièrement optique est utilisé, le rapport devient GPU:switch:module optique = 0.15:6:XNUMX.
Structure du réseau H100 et exigences du module optique
La structure de déploiement de base pour chaque DGX H100 SuperPOD se compose de 32 serveurs (chaque serveur avec 8 GPU) et de 12 commutateurs. La topologie du réseau est une structure IB Fat-Tree, avec chaque port de commutateur fonctionnant à 400G et pouvant être combiné en un port 800G. Pour un cluster 4SU, en supposant un réseau entièrement optique et une architecture Fat-Tree à trois couches, Modules optiques 400G sont utilisés entre les serveurs et les commutateurs leaf, tandis que les modules optiques 800G sont utilisés entre les commutateurs leaf-spine et spine-core. Le nombre de modules optiques 400G requis est de 3284=256 et le nombre de modules optiques 800G est de 3282.5=640. Par conséquent, le rapport GPU:switch:module optique 400G:module optique 800G est de 1:0.08:1:2.5.
Pour un seul cluster GH200, composé de 256 GPU super-puces interconnectés utilisant une structure de réseau Fat Tree à deux niveaux, les deux niveaux sont construits avec des commutateurs NVLink. Le premier niveau (entre les serveurs et les commutateurs de niveau 1) utilise 96 commutateurs, tandis que le niveau 2 utilise 36 commutateurs. Chaque commutateur NVLink dispose de 32 ports, chaque port ayant une vitesse de 800G. Étant donné que la bande passante agrégée bidirectionnelle du NVLink 4.0 est de 900 Go/s et celle unidirectionnelle de 450 Go/s, la bande passante totale de liaison montante pour la couche d'accès dans un cluster de 256 cartes est de 115,200 800 Go/s. Compte tenu de l'architecture Fat Tree et du taux de transmission du module optique 100G (800 Go/s), le besoin total en modules optiques 2,304G est de 200 1 unités. Par conséquent, au sein du cluster GH9, le rapport GPU/modules optiques est de 200:100. Lors de l'interconnexion de plusieurs clusters GH800, faisant référence à l'architecture H1, dans une structure de réseau à trois niveaux, la demande de GPU pour les modules optiques 2.5G est de 1:1.5 ; dans un réseau à deux niveaux, il est de 200:800. Ainsi, lors de l’interconnexion de plusieurs GH1, la limite supérieure du rapport GPU/module optique 9G est de 2.5 : (1+11.5) = XNUMX : XNUMX.
En résumé, à mesure que les clusters informatiques continuent d’améliorer les performances du réseau, la demande de modules optiques à haut débit devient plus élastique. En prenant comme exemple les clusters NVIDIA, le débit d'interface de la carte réseau adapté par la carte accélératrice est étroitement lié à la bande passante de son protocole réseau. Le GPU A100 prend en charge PCIe 4.0, avec une bande passante unidirectionnelle maximale de 252 Gb/s, le débit de la carte réseau PCIe doit donc être inférieur à 252 Gb/s, en association avec les cartes réseau Mellanox HDR 200 Gb/s Infiniband. Le GPU H100 prend en charge PCIe 5.0, avec une bande passante unidirectionnelle maximale de 504 Gb/s, s'associant ainsi aux cartes réseau Mellanox NDR 400 Gb/s Infiniband. Par conséquent, en passant du A100 au H100, la demande de module optique correspondante augmente de 200G à 800G (deux ports 400G combinés en un 800G) ; tandis que le GH200 utilise NVLink pour la connectivité inter-cartes, avec une bande passante unidirectionnelle augmentée à 450 Go/s, augmentant encore l'élasticité pour la demande 800G. Supposons que le cluster H100 passe de PCIe 5.0 à PCIe 6.0, avec une bande passante unidirectionnelle maximale augmentée à 1024 800 Gb/s. Dans ce cas, le débit de la carte réseau de la couche d'accès peut être augmenté à 800G, ce qui signifie que la couche d'accès peut utiliser des modules optiques de 800G, et l'élasticité de la demande pour une seule carte correspondant aux modules optiques de XNUMXG dans le cluster doublerait.
L'architecture et l'application de cluster informatique de Meta ont précédemment publié le projet « Research SuperCluster » pour former le modèle LLaMA. Dans la deuxième phase du projet RSC, Meta a déployé un total de 2,000 100 serveurs A16,000, contenant 100 2,000 GPU A48,000. Le cluster comprend 96,000 200 commutateurs et 100 1 liens, correspondant à une architecture réseau CLOS à trois niveaux. Si un réseau optique complet est adopté, cela correspond à 6 100 modules optiques XNUMXG, ce qui signifie que le rapport GPU AXNUMX/modules optiques est de XNUMX:XNUMX, ce qui est cohérent avec l'architecture AXNUMX calculée précédemment.
Meta a mis en œuvre une infrastructure de formation pour LLaMA3 utilisant des GPU H100, qui comprend des clusters avec InfiniBand et Ethernet, capables de prendre en charge jusqu'à 32,000 2 GPU. Pour la solution Ethernet, selon les informations divulguées par Meta, le cluster informatique utilise toujours une architecture de réseau convergé feuille-épine. Chaque rack contient 1 serveurs connectés à 400 commutateur Top-of-Rack (TOR) (à l'aide de Wedge 252), avec un total de 2 serveurs dans un cluster. Les commutateurs de cluster utilisent des commutateurs rack Minipack18 OCP, avec 3.5 commutateurs de cluster au total, ce qui donne un taux de convergence de 1:18. Il existe 7800 commutateurs de couche d'agrégation (utilisant Arista 3R7), avec un taux de convergence de 1:400. Le cluster utilise principalement des modules optiques XNUMXG. Du point de vue de l'architecture de cluster, la solution Ethernet nécessite encore de nouvelles avancées au niveau du protocole pour promouvoir la construction d'un réseau non bloquant, en prêtant attention aux progrès d'organisations telles que l'Ethernet Alliance.
AWS a lancé la deuxième génération de clusters EC2 Ultra, qui incluent le GPU H100 et leur solution propriétaire Trainium ASIC. Les instances AWS EC2 Ultra Clusters P5 (c'est-à-dire la solution H100) fournissent une bande passante réseau globale de 3200 20,000 Gbit/s et prennent en charge GPUDirect RDMA, avec une capacité réseau maximale de 1 16 GPU. Les instances Trn1600n (solution propriétaire Trainium) disposent d'un cluster de 30,000 cartes fournissant 6 XNUMX Gbit/s de bande passante réseau globale, prenant en charge jusqu'à XNUMX XNUMX ASIC en réseau, correspondant à XNUMX EFlops de puissance de calcul.
L'interconnexion entre les cartes AWS EC2 Ultra Clusters utilise NVLink (pour la solution H100) et NeuronLink (pour la solution Trainium), avec une interconnexion de cluster utilisant leur adaptateur réseau propriétaire EFA. Comparé à la solution de Nvidia, le cluster Trainium ASIC propriétaire d'AWS a une bande passante de liaison montante estimée à 100 G par carte (bande passante globale de 1600 16 G / 100 cartes = XNUMX G), il n'y a donc actuellement aucune demande pour 800G modules optiques dans l'architecture d'AWS.
Le dernier cluster informatique de Google est composé de matrices TPU configurées dans un tore tridimensionnel. Un tore unidimensionnel correspond à chaque TPU relié à deux TPU adjacents, un tore bidimensionnel est constitué de deux anneaux orthogonaux, correspondant à chaque TPU relié à quatre TPU adjacents ; Le TPUv4 de Google représente un tore tridimensionnel, chaque TPU étant connecté à six TPU adjacents.
Sur cette base, une structure de réseau 3D de 444 = 64 TPU est construite dans chaque armoire. La partie externe de la structure 3D se connecte à l'OCS, avec une interconnexion de 4096 TPU correspondant à 64 armoires et 48 commutateurs OCS, ce qui équivaut à 48*64=6144 modules optiques. En interne, des connexions DAC sont utilisées (18000 1 câbles), ce qui donne un rapport TPU/module optique de 1.5:800. Dans le cadre de la solution OCS, les modules optiques doivent adopter une solution de multiplexage par répartition en longueur d'onde et ajouter des circulateurs pour réduire le nombre de fibres, la solution de module optique ayant des fonctionnalités personnalisées (8G VFRXNUMX).
Produits associés:
- NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 Module émetteur-récepteur optique SMF $1200.00
- NVIDIA MMA4Z00-NS-FLT Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $850.00
- NVIDIA MMS4X00-NM Compatible 800Gb/s double port OSFP 2x400G PAM4 1310nm 500m DOM double MTP/MPO-12 Module émetteur-récepteur optique SMF $1100.00
- NVIDIA MMA4Z00-NS Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $750.00
- NVIDIA MMS1Z00-NS400 Compatible 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12 avec Module émetteur-récepteur optique FEC $800.00
- NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Module Émetteur-Récepteur Optique $800.00
- Module émetteur-récepteur optique NVIDIA MMA1Z00-NS400 Compatible 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC $650.00
- NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m sur OM3/50m sur OM4 MTP/MPO-12 Module émetteur-récepteur optique FEC multimode $650.00
- OSFP-FLT-800G-PC2M Câble à connexion directe passive 2 m (7 pi) 2x400G OSFP vers 2x400G OSFP PAM4 InfiniBand NDR, dessus plat à une extrémité et dessus plat à l'autre $300.00
- OSFP-800G-PC50CM 0.5m (1.6ft) 800G Twin-port 2x400G OSFP à 2x400G OSFP InfiniBand NDR Passive Direct Attach Copper Cable $105.00
- OSFP-800G-AC3M 3m (10ft) 800G Twin-port 2x400G OSFP à 2x400G OSFP InfiniBand NDR Câble Cuivre Actif $600.00
- OSFP-FLT-800G-AC3M Câble en cuivre actif 3G double port 10x800G OSFP vers 2x400G OSFP InfiniBand NDR de 2 m (400 pieds), dessus plat à une extrémité et dessus plat à l'autre $600.00