Configuration matérielle et conception de réseau pour les clusters GPU à grande échelle

Informations contextuelles

Depuis qu'OpenAI a introduit ChatGPT, les grands modèles de langage (LLM) ont attiré une attention considérable et se sont développés rapidement. De nombreuses entreprises investissent dans la pré-formation LLM pour suivre cette tendance. Cependant, la formation d'un LLM à l'échelle 100B nécessite généralement des ressources de calcul importantes, telles que des clusters équipés de milliers de GPU. Par exemple, le modèle de la série Falcon entraîne un modèle 180B sur un cluster GPU 4096 A100, ce qui prend près de 70 jours pour des jetons de 3.5T. À mesure que l’échelle des données continue de croître, la demande en puissance de calcul augmente. Meta, par exemple, a entraîné son modèle de la série LLaMA3 à l'aide de jetons 15T sur deux clusters H24 100K.

Dans cet article, nous examinons les composants et les configurations impliqués dans la création de clusters GPU à grande échelle. Nous aborderons différents types de GPU, configurations de serveur, périphériques réseau (tels que cartes réseau, commutateurs et modules optiques) et topologies de réseau de centres de données (par exemple, 3 niveaux, Fat-Tree). Plus précisément, nous explorerons les configurations DGX A100 SuperPod et DGX H100 SuperPod de NVIDIA, ainsi que les topologies courantes utilisées dans les clusters multi-GPU.

Gardez à l’esprit que la construction de clusters GPU ultra-larges est une entreprise extrêmement complexe, et cet article ne fait qu’effleurer la surface. Dans le déploiement pratique d'un cluster, les réseaux de stockage, les réseaux de gestion et d'autres aspects entrent en jeu, mais nous n'entrerons pas dans ces détails ici. De plus, les conceptions de topologie de réseau varient en fonction de différents scénarios d'application. Nous nous concentrerons sur les topologies arborescentes couramment utilisées dans les clusters GPU IA à grande échelle. Enfin, nous ne couvrirons pas les composants critiques tels que les systèmes d’alimentation et les systèmes de refroidissement, qui sont essentiels à la maintenance et au fonctionnement des clusters GPU.

Composants pertinents

GPU

Le tableau ci-dessous illustre les GPU Ampere, Hopper et les derniers GPU de la série Blackwell. Notez que la capacité de mémoire, la puissance de calcul et les capacités NVLink s'améliorent progressivement :

A100 -> H100 : le calcul dense FP16 augmente de plus de 3 fois, tandis que la consommation électrique n'augmente que de 400 W à 700 W.

H200 -> B200 : le calcul dense FP16 double, avec une consommation électrique passant de 700 W à 1000 XNUMX W.

Le calcul dense du B200 FP16 est environ 7 fois supérieur à celui de l’A100, tandis que la consommation électrique n’est que 2.5 fois plus élevée.

Les GPU Blackwell prennent en charge la précision FP4, offrant une puissance de calcul deux fois supérieure à celle du FP8. Certaines comparaisons entre l'architecture FP4 et FP8 de Hopper montrent une accélération encore plus significative.

Notez que le GB200 utilise la puce B200 complète, tandis que le B100 et le B200 sont des versions réduites correspondantes.

GB200 utilise la puce B200 complète

Serveurs HGX

HGX est un serveur hautes performances de NVIDIA, contenant généralement 8 ou 4 GPU, généralement associés à des processeurs Intel ou AMD, et utilisant NVLink et NVSwitch pour obtenir une interconnexion complète (8 GPU constituent généralement la limite supérieure de l'interconnexion complète NVLink, à l'exception de NVL. et SuperPod).

Du HGX A100 -> HGX H100 et HGX H200, la puissance de calcul dense du FP16 a augmenté de 3.3 fois, tandis que la consommation électrique est inférieure à 2 fois.

De HGX H100 et HGX H200 -> HGX B100 et HGX B200, la puissance de calcul dense du FP16 a augmenté d'environ 2 fois, tandis que la consommation d'énergie est similaire, au maximum ne dépassant pas 50 %.

Il convient de noter que:

Le réseau des HGX B100 et HGX B200 n'a pratiquement pas été mis à niveau et la carte réseau IB est toujours à 8x400 Gb/s.

HGX B100 et HGX B200

NVIDIA DGX et HGX sont deux solutions hautes performances conçues pour les besoins d'apprentissage profond, d'intelligence artificielle et de calcul à grande échelle. Cependant, ils diffèrent par leur conception et leurs applications cibles :

DGX :

Destiné aux consommateurs en général.

Fournit des solutions plug-and-play hautes performances.

Livré avec un support logiciel complet, y compris la pile logicielle d'apprentissage en profondeur, les pilotes et les outils de NVIDIA.

Systèmes généralement pré-construits et fermés.

HGX :

Destiné aux fournisseurs de services cloud et aux opérateurs de centres de données à grande échelle.

Convient pour créer des solutions personnalisées hautes performances.

Offre une conception modulaire, permettant aux clients de personnaliser le matériel en fonction de leurs besoins.

Généralement fourni sous forme de plate-forme matérielle ou d'architecture de référence.

Concernant le réseautage :

Networking

Cartes réseau

Nous nous concentrerons sur ConnectX-5/6/7/8, qui sont des cartes réseau haut débit de Mellanox.

Ces cartes prennent en charge Ethernet et InfiniBand (IB).

ConnectX-5 a été lancé en 2016, suivi de ConnectX-6 en 2020, ConnectX-7 en 2022 et ConnectX-8, présenté par Jensen Huang lors de la conférence GTC 2024 (bien que les spécifications détaillées ne soient pas encore disponibles).

Chaque génération double environ la bande passante totale et on estime que la prochaine génération atteindra 1.6 Tbps.

Cartes réseau

Interrupteurs

NVIDIA propose également des commutateurs pour Ethernet et InfiniBand (IB). Ces commutateurs disposent souvent de dizaines, voire de centaines de ports, correspondant à un débit total (Bidirectionnel Switching Capacité) calculé comme la bande passante maximale multipliée par le nombre de ports, le « 2 » indiquant une communication bidirectionnelle.

Commutateurs Ethernet série Spectrum-X

Commutateurs Ethernet série Spectrum-X

Commutateurs InfiniBand série Quantum-X :

Ces commutateurs offrent un débit de 400 Gb/s.

Ils excellent dans le calcul haute performance (HPC), l’IA et les infrastructures cloud hyperscale.

Les commutateurs Quantum-X offrent des performances robustes tout en minimisant la complexité et les coûts.

En plus des commutateurs Mellanox, de nombreux centres de données adoptent désormais des commutateurs modulaires (tels que la série Arista 7800) aux côtés des options traditionnelles. Par exemple, Meta a récemment construit deux clusters GPU avec 24 100 GPU H7800, utilisant des commutateurs Arista 7800. La série 7816 comprend des commutateurs modulaires comme les 3LR7816 et 3R576, qui peuvent fournir 400 ports d'une bande passante haut débit de XNUMXG. Ces commutateurs utilisent des bus internes efficaces ou des fonds de panier de commutateurs pour la transmission et le traitement des données à faible latence.

Commutateur modulaire

Modules optiques

Les modules optiques jouent un rôle crucial dans la communication par fibre optique. Ils convertissent les signaux électriques en signaux optiques, qui sont ensuite transmis via des fibres optiques. Ces modules offrent des débits de transmission plus élevés, des distances plus longues et une plus grande immunité aux interférences électromagnétiques. En règle générale, un module optique se compose d'un émetteur (pour convertir les signaux électriques en signaux optiques) et d'un récepteur (pour convertir les signaux optiques en signaux électriques).

Modules optiques

Deux types d'interfaces de modules optiques couramment utilisés sont :

SFP (Small Form-factor Pluggable) : les modules SFP fonctionnent généralement comme des canaux de transmission uniques (en utilisant une fibre ou une paire de fibres).

QSFP (Quad Small Form-factor Pluggable) : les modules QSFP prennent en charge plusieurs canaux de transmission. QSFP-DD (Double Density) améliore encore la densité des ports en utilisant 8 canaux.

Récemment, le packaging OSFP (Octal Small Form-factor Pluggable) a vu le jour, spécialement conçu pour les scénarios à large bande passante comme 400 Gbit/s et 800 Gbit/s. Les modules OSFP ont 8 canaux et sont légèrement plus grands que QSFP-DD. Ils ne sont pas compatibles avec les interfaces SFP et QSFP et nécessitent des convertisseurs. Le schéma ci-dessous illustre Modules OSFP 400 Gbit/s pour différentes distances de transmission (100 m, 500 m, 2 km et 10 km).

Pour différentes distances, considérez les choix de modules suivants :

Entre les couches Core et Spine : utilisez 10 km de 400G LR4 ou 800G 2xLR4.

Entre les couches Spine et Leaf : Optez pour 2km 400G FR4.

Entre Leaf et ToR (Top of Rack) : choisissez des modules DR de 500 m 400G.

400G RD

Topologie du réseau de centre de données (DCN)

Concepts de base

Trafic Nord-Sud : Désigne le trafic provenant de l’extérieur du data center. Cela inclut non seulement le trafic lié à Internet, mais également le trafic entre les différents centres de données.

Trafic Est-Ouest : Fait référence au trafic au sein d’un même centre de données. Par exemple, cela englobe la communication entre différents serveurs au sein du centre de données. Dans les centres de données modernes, ce type de trafic constitue généralement une part importante, représentant souvent 70 à 80 % du total.

Les topologies de réseau de centre de données commun (DCN) sont illustrées dans le diagramme ci-dessous.

Réseau de centres de données

Architecture DCN multiniveau

Les architectures DCN multi-niveaux sont répandues, en particulier l'architecture DCN à 3 niveaux. Cette structure arborescente gère principalement le trafic Nord-Sud et se compose de trois couches :

  • Couche centrale : la couche centrale comprend généralement des routeurs ou des commutateurs haute capacité.
  • Couche d'agrégation (couche de distribution) : responsable de la connexion des périphériques de la couche d'accès et de l'ingénierie du routage, du filtrage et du trafic entre eux.
  • Couche d'accès : la couche d'accès est l'endroit où les appareils des utilisateurs finaux se connectent directement au réseau, facilitant ainsi la connexion des appareils des utilisateurs au réseau du centre de données.
Architecture DCN multiniveau

Dans cette architecture, on suppose généralement que tous les périphériques d'accès ne communiquent pas simultanément avec une bande passante maximale. Par conséquent, une pratique courante consiste à allouer une bande passante totale plus petite à mesure que l’on monte dans la hiérarchie. Par exemple, la bande passante totale au niveau de la couche d'accès peut être de 20 Gbit/s, tandis que la bande passante totale de la couche de distribution peut être de seulement 1 Gbit/s. Dans les cas extrêmes, si tous les appareils communiquent avec une bande passante maximale, cela peut entraîner un blocage, une latence accrue et des retards imprévisibles. Cette situation est souvent appelée sursouscription, le ratio (par exemple 20 : 1) indiquant le taux de sursouscription.

Au sein de cette architecture, des mécanismes de redondance ou de sauvegarde sont généralement présents. Les commutateurs entre les couches centrales et de distribution peuvent s'interconnecter, créant potentiellement des boucles. Pour éviter les boucles, des protocoles Spanning Tree (tels que le Spanning Tree Protocol, STP) sont utilisés. Cependant, cela peut également entraîner un gaspillage de bande passante en raison de la redondance.

Réseaux CLOS

Les réseaux CLOS sont une structure de réseau de commutation à plusieurs étages initialement proposée par Charles Clos en 1953. Bien qu'utilisés à l'origine pour les centraux téléphoniques, leurs principes et leur conception sont désormais largement appliqués dans les centres de données et le calcul haute performance. L'idée principale est de fournir des services réseau à large bande passante et à faible latence via une structure interconnectée à plusieurs étages tout en maintenant l'évolutivité.

Comme le montre le schéma ci-dessous, les réseaux CLOS se composent généralement de trois couches :

Couche d'entrée : responsable de la réception des signaux d'entrée externes.

Couche intermédiaire : connecte la couche d'entrée aux commutateurs de la couche de sortie.

Couche de sortie : responsable de l'envoi des données vers la destination finale.

Réseaux CLOS

Les réseaux CLOS offrent les fonctionnalités et avantages suivants :

Non bloquant : Idéalement, une conception de réseau CLOS est non bloquante (sans convergence), ce qui signifie que les retards ou les pertes de transmission de données ne se produisent pas en raison de goulots d'étranglement de commutation.

Évolutivité : en ajoutant davantage de couches et de commutateurs, les réseaux CLOS peuvent facilement évoluer pour prendre en charge des connexions d'entrée et de sortie supplémentaires sans sacrifier les performances.

Redondance : les multiples chemins de la conception permettent aux données d'être transmises via des itinéraires alternatifs même en cas de défaillance de certains commutateurs ou connexions, améliorant ainsi la fiabilité globale du réseau.

Flexibilité : les réseaux CLOS prennent en charge diverses configurations pour s'adapter à différentes tailles de système et exigences de performances.

Topologie du gros arbre

L'architecture du réseau de centres de données Fat-Tree (DCN) est une forme spécialisée du réseau CLOS. Il est largement utilisé dans le calcul haute performance et les centres de données à grande échelle.

Charles Leiserson a introduit cette topologie de réseau en 1985. Contrairement aux réseaux arborescents traditionnels à 3 niveaux, la topologie Fat-Tree présente des caractéristiques uniques :

Tous les commutateurs de couche sont remplacés par des commutateurs à faible coût.

À mesure que nous progressons dans la hiérarchie, les liens « s’épaississent », maintenant une bande passante totale cohérente entre les couches pour éviter les goulots d’étranglement.

Le nombre de commutateurs et leurs connexions sont symétriques à chaque couche, garantissant des chemins équilibrés pour les appareils et minimisant les points de défaillance uniques.

topologies de gros arbres

Maximisation de la bande passante de bout en bout : l'objectif principal de l'architecture Fat-Tree est de maximiser la bande passante de bout en bout. Il atteint un taux de surabonnement de 1:1, ce qui donne un réseau non bloquant.

Nombre de commutateurs et configuration des ports :

Dans une topologie de réseau Fat-Tree à K ports (où K est le nombre de ports par commutateur), tous les commutateurs ont généralement le même nombre de ports.

Explorons les topologies Fat-Tree à 2 et 3 couches :

Topologie Fat-Tree à 2 couches :

Commutateurs Spine : commutateurs K/2, chacun avec des ports K*(K/2).

Commutateurs Leaf : commutateurs K, chacun avec des ports K*K.

Cette configuration permet un maximum de serveurs KK/2 dans un réseau non bloquant, nécessitant des commutateurs réseau 3K/2.

Topologie Fat-Tree à 3 couches :

Commutateurs principaux (commutateurs Super Spine) : (K/2)^2 commutateurs, chacun avec des ports K*(K/2)^2.

Commutateurs Spine : 2*(K/2)^2 commutateurs, chacun avec des ports K2(K/2)^2.

Commutateurs Leaf : 2*(K/2)^2 commutateurs, chacun avec des ports K2(K/2)^2.

Cette conception prend en charge un maximum de serveurs K2(K/2)^2/2 = K^3/4 dans un réseau non bloquant, nécessitant 5*K^2/4 commutateurs.

Topologies Fat-Tree à 2 et 3 couches

Pour les topologies Fat-Tree à 2 et 3 couches, le nombre de commutateurs et les configurations de ports suivent des modèles spécifiques.

Notez qu'il existe des variations dans la terminologie (par exemple, Fat-Tree vs. Spine-Leaf), mais nous les considérerons toutes sous l'égide de Fat-Tree.

NVIDIA DGX SuperPod-A100

Système DGX A100

Le système DGX A100, comme illustré dans le schéma ci-dessous, est une configuration 6U avec les composants suivants :

8 GPU A100 : chaque GPU offre une bande passante NVLink de 600 Go/s.

Bande passante totale NVSwitch : le système atteint une bande passante NVSwitch totale de 4.8 To/s, avec 640 Go de mémoire HBM2 (80 Go par GPU).

Connexions informatiques (IB) : il existe 8 cartes réseau ConnectX-6, offrant une bande passante totale combinée de 8 * 200 Gbit/s.

Connexions de stockage (IB) : 2 connexions pour le stockage.

Connexion intra-bande (Ethernet) : utilisée pour la communication interne.

Connexion hors bande (Ethernet) : à des fins de gestion.

Système DGC A100

Notamment, la bande passante NVLink est mesurée en octets, tandis que la bande passante réseau utilise généralement des bits. Dans ce système, la bande passante interne atteint 4.8 To/s, alors que la bande passante globale du réseau est de 1.6 Tbit/s, ce qui représente une différence de 24 fois.

Système DGX A100

SuperPod SU

Le SuperPod SU (Scalable Unit), représenté sur la figure, sert d'élément de base pour la construction du DGX-SuperPod-A100. Voici ses composants clés :

Chaque SU comprend 5 racks de calcul et 1 rack réseau Leaf.

Chaque rack de calcul abrite 4 systèmes DGX A100 et 2 unités de distribution d'alimentation (PDU) 3U, totalisant 32 GPU A100 par rack de calcul. Ainsi, un SU comprend 160 GPU A100.

Le rack réseau Leaf contient 8 commutateurs de calcul (1U) et 2 commutateurs de stockage (1U).

Les commutateurs de calcul utilisent des commutateurs IB QM8790 200 Gbit/s, ce qui donne un total de 320 ports :

160 ports se connectent aux cartes réseau ConnectX-6 dans les racks de calcul, fournissant 200 Gbit/s par GPU.

Les 160 ports restants se connectent au Spine Rack.

Élévations des racks SU

Certains scénarios peuvent également utiliser des commutateurs Top-of-Rack (ToR) dans une armoire pour un câblage plus simple. Cependant, cette approche peut conduire à un gaspillage portuaire. Par exemple, en raison de contraintes d'alimentation et de problèmes de refroidissement, les serveurs GPU sont souvent limités à une seule armoire, ce qui réduit le nombre de cartes réseau.

Serveurs GPU

Veuillez noter que même si certains scénarios industriels peuvent utiliser moins de cartes réseau (par exemple, 4 × 200 Gbit/s) au sein d'un système 8*A100, la topologie globale du réseau reste similaire.

Support de colonne vertébrale

Comme le montre la figure, un rack Spine contient 20 commutateurs de calcul 1U, en particulier des commutateurs IB QM8790 200 Gbit/s, totalisant 800 ports. Le commutateur hors bande et le commutateur intra-bande restants peuvent être utilisés pour la gestion du réseau.

élévations du support de colonne vertébrale

DGX SuperPod 100 nœuds

La figure ci-dessous illustre un DGX-SuperPOD à 100 nœuds, comprenant 5 SU et un Spine Rack supplémentaire.

Chaque SU comprend 8 commutateurs de calcul Leaf (QM7890, 200 Gbit/s).

Les 8 cartes réseau ConnectX-6 de chaque nœud se connectent à 8 commutateurs de calcul Leaf, chaque ConnectX-6 correspondant à 1 GPU.

Les commutateurs de calcul Leaf disposent de 20 ports se connectant à 20 nœuds au sein du SU et de 20 ports supplémentaires se connectant aux 20 commutateurs de calcul Spine dans le rack Spine.

topologie de structure de calcul pour un système à 100 nœuds

Cette topologie permet d'obtenir un réseau non bloquant pour 800 GPU (deux GPU quelconques peuvent communiquer) :

Les GPU de différents SU se connectent via : ConnectX-6 -> Leaf Switch -> Spine Switch -> Leaf Switch -> ConnectX-6.

Les GPU au sein du même SU mais différents nœuds se connectent via : ConnectX-6 -> Leaf Switch -> ConnectX-6.

Les GPU au sein du même nœud communiquent via NVLink.

La limite pratique pour 800 GPU (chaque GPU correspondant à un port NIC de 200 Gbit/s) utilisant QM8790 est un réseau Fat-Tree à 2 niveaux. Au-delà de 800 GPU, il faudrait un Fat-Tree à 3 niveaux, permettant jusqu'à 16,000 XNUMX GPU.

DGX SuperPod 140 nœuds

Dans un système à 100 nœuds où tous les ports Compute Switch sont occupés, l’expansion vers davantage de GPU nécessite la transition de commutateurs à 2 couches vers des commutateurs à 3 couches. Cela implique l’ajout d’une couche Core Compute Switch, toujours en utilisant QM8790 à 200 Gbps.

La figure montre un SuperPod à 140 nœuds avec 7 SU, totalisant 56 commutateurs Leaf. Idéalement, 56 commutateurs Leaf nécessiteraient 56 commutateurs Spine et 28 commutateurs principaux. Cependant, la conception actuelle utilise 80 commutateurs Spine, organisés en 8 groupes (SG), chacun avec 10 commutateurs Spine, et chaque groupe central (CG) avec 14 commutateurs principaux. Cette topologie Fat-Tree symétrique simplifie la gestion.

Chaque commutateur Leaf d'un SU se connecte à 10 commutateurs Spine dans le SG correspondant (20 ports par commutateur Leaf). Les commutateurs Spine alternent les connexions avec les commutateurs principaux (positions impaires aux commutateurs principaux impairs, positions paires aux commutateurs principaux pairs).

Chaque Core Switch se connecte à 40 Spine Switches.

GHX SuperPOD à 140 nœuds

Cette configuration prend en charge un cluster GPU 140*8=1120 6, chaque GPU disposant d'une carte réseau ConnectX-200 XNUMX Gbit/s.

Support de rangement

Comme le montre la figure ci-dessous, un rack de stockage contient 4 commutateurs de stockage, également des commutateurs IB QM8790 200 Gbit/s, totalisant 160 ports. Les unités de stockage correspondantes sont également présentes au sein du rack.

élévations des racks de stockage

Tissu de stockage DGX SuperPod

La figure illustre Storage Fabric pour la configuration à 140 nœuds. Il comprend 18 commutateurs à feuilles. Chaque SuperPod SU (unité évolutive) contient 2 racks réseau Leaf et 1 rack de stockage. De plus, il y a 8 commutateurs de colonne vertébrale.

topologie de structure de stockage pour un système à 140 nœuds

Configurations supplémentaires

Le tableau 3 fournit des détails sur les configurations de calcul pour différents nœuds.

calculer le nombre de commutateurs et de câbles

Le tableau 4 présente les configurations de stockage.

le tissu de stockage compte

NVIDIA DGX SuperPod-H100

Système DGX H100

Le système DGX H100 (6U), tel qu'illustré, comprend :

  • 8 GPU H100, chacun avec une bande passante NVLink de 900 Go/s.
  • Un total de 7.2 To/s de bande passante NVSwitch et 640 Go de mémoire HBM3 (80 Go par GPU).
  • 4 ports OSFP (IB) correspondant à 8 cartes réseau ConnectX-7, fournissant une bande passante de 8*400 Gbps.
  • Emplacements 1 et 2 avec 2 cartes réseau ConnectX-7, offrant une bande passante de 2*400 Gbps.
  • Une connexion intra-bande (Ethernet).
Système DGX H100
Le système DGX H100 (6U)

Les 8 GPU sont entièrement interconnectés via NVSwitch. La bande passante interne atteint 7.2 To/s, tandis que la bande passante globale du réseau est de 3.2 Tbit/s, soit une différence de 22.5 fois.

SuperPod SU

La figure 2 représente l'élément de base du DGX-SuperPod-H100, connu sous le nom de SuperPod SU :

  • Chaque SU contient 8 racks de calcul, chaque rack fournissant 40 kW.
  • Chaque rack de calcul abrite 4 systèmes DGX H100 et 3 PDU (unités de distribution d'alimentation), ce qui donne 32 GPU H100 par rack de calcul. Ainsi, un SU accueille 256 GPU H100.
Disposition complète d'un rack SU unique

Support de gestion

Dans le SuperPod DGX correspondant aux GPU H100, NVIDIA propose un rack de gestion similaire aux racks Spine et Storage de la série A100. La figure 3 fournit un exemple (les configurations spécifiques peuvent varier) :

  • 32 commutateurs de calcul Leaf (QM9700) offrent 64 ports 400 Gbps chacun. Théoriquement, 1024 ports 400 Gbps sont disponibles pour se connecter aux cartes réseau ConnectX-7 sur les nœuds. Les 1024 ports restants se connectent précisément à 16 commutateurs Spine Compute, réalisant ainsi un réseau non bloquant pour 1024 GPU.
  • 16 commutateurs de calcul Spine (également QM9700) se connectent à la moitié des ports des 32 commutateurs de calcul Leaf.
  • 8 commutateurs de stockage Leaf (QM9700) font partie de la configuration.
  • 4 Spine Storage Switches (QM9700) complètent la configuration.
configuration du rack de gestion

DGX SuperPod 127 nœuds

La figure 5 illustre un DGX SuperPod à 127 nœuds avec 4 unités évolutives (SU) et un rack de gestion associé. En théorie, le Management Rack peut se connecter aux 128 nœuds des 4 SU. Cependant, étant donné que certains commutateurs Leaf sont connectés à Unified Fabric Manager (UFM), le nombre réel de nœuds est de 127.

127nœud

Configurations supplémentaires

Comme le montre le tableau 3, en utilisant les commutateurs QM9700, un Fat-Tree à 2 niveaux peut réaliser un réseau non bloquant pour jusqu'à 6464/2=2048 GPU (correspondant à 8 SU). Un Fat-Tree à 3 niveaux peut prendre en charge jusqu'à 6464*64/4=65536 GPU. En pratique, la configuration comprend 64 SU, totalisant 16384 XNUMX GPU.

grands couts de composants de superpodes

Solutions de cluster de formation GPU pour l'industrie

Topologie Fat Tree à deux niveaux

La topologie Fat-Tree non bloquante commune à deux niveaux (Spine-Leaf) est répandue pour les machines d'entraînement à 8 GPU. Au sein d'une même machine, les 8 GPU sont entièrement interconnectés via NVLink + NVSwitch, avec une bande passante de communication nettement supérieure à la bande passante du réseau. Par conséquent, il est courant de connecter la carte réseau de chaque GPU à différents commutateurs :

Chaque groupe contient 8 Leaf Switches, correspondant aux 8 GPU d'une machine.

En supposant qu'un commutateur Leaf dispose de 128 ports, 64 ports se connectent aux cartes réseau des GPU correspondants, ce qui donne 64*8 = 512 GPU par groupe. Leaf Switch 1 connecte toutes les cartes réseau des GPU Node 1, et ainsi de suite.

Cette fonctionnalité peut être exploitée lors de la conception de stratégies de formation distribuées.

Pour obtenir un maillage complet entre les commutateurs Spine et Leaf, chaque commutateur Leaf se connecte à un commutateur Spine. Ainsi, il y a 64 commutateurs Spine, et chaque commutateur Spine se connecte aux 128 commutateurs Leaf. Cela nécessite 16 groupes.

En résumé, un maximum de 192 commutateurs avec 128 ports chacun peuvent prendre en charge 512*16=8192 GPU.

Topologie Fat Tree à deux niveaux

Topologie Fat Tree à deux niveaux FiberMall

La solution standard FiberMall pour Fat-Tree à deux niveaux est similaire à la topologie décrite précédemment. Cependant, il utilise des commutateurs à 64 ports.

Topologie Fat Tree à deux niveaux FiberMall

Grâce aux commutateurs 64 ports 400 Gbit/s :

Les commutateurs Leaf et Spine sont réduits de moitié (64 et 32, respectivement).

La prise en charge des GPU est réduite à 1/4, ce qui donne 2*(64/2)*(64/2)=2048 XNUMX GPU.

Le nombre total de modules optiques comprend les ports de commutateur et les cartes réseau GPU : (64+32)*64+2048=8192.

Topologie Fat Tree à trois niveaux

La topologie commune non bloquante Fat-Tree à trois niveaux (SuperSpine-Spine-Leaf) traite la Spine-Leaf à deux niveaux comme un pod.

Étant donné que les Spine Switches se connectent également aux SuperSpine Switches, le nombre de groupes est réduit de moitié. Chaque Pod dispose de 64 Spine Switches, correspondant à 4096 GPU.

Plusieurs pods peuvent en outre créer 64 structures SuperSpine, chacune entièrement interconnectée avec les commutateurs Spine de différents pods. Par exemple, avec 8 pods, chaque Fabric n'a besoin que de 4 commutateurs SuperSpine de 128 ports.

La configuration pour 8 Pods comprend :

  • Nombre total de GPU : 4096*8=32768
  • Commutateurs SuperSpine : 64*4=256
  • Commutateurs de colonne vertébrale : 64*8 = 512
  • Commutateurs à feuilles : 64*8 = 512
  • Nombre total de commutateurs : 256+512+512=1280
  • Total des modules optiques : 1280*128+32768=196608

Le maximum théorique prend en charge 128 Pods, correspondant à :

  • GPUs: 4096128=524288=2(128/2)^3
  • SuperSpine Switches: 64*64=4096=(128/2)^2
  • Spine Switches: 64128=8192=2(128/2)^2
  • Leaf Switches: 64128=8192=2(128/2)^2
  • Total Switches: 4096+8192+8192=20480=5*(128/2)^2

Laisser un commentaire

Remonter en haut