La solution Spectrum-X de NVIDIA est la première solution Ethernet de bout en bout au monde conçue spécifiquement pour l'IA générative. Cette solution complète comprend plusieurs composants clés : les commutateurs de la série Spectrum-4, les SuperNIC BlueField-3, les modules de câbles hautes performances LinkX 800G/400G et une solution logicielle full-stack intégrée avec des capacités d'accélération matérielle. La véritable puissance de Spectrum-X réside dans l'intégration étroite du matériel et du logiciel ; l'utilisation d'un seul composant de manière isolée ne permet pas de mettre pleinement en valeur son efficacité maximale.
Aujourd’hui, de nombreux fabricants de puces de premier plan ont lancé des puces de commutation conçues pour les applications d’IA et d’apprentissage automatique (ML), avec un débit de puce unique atteignant jusqu’à 51.2 Tbit/s. Bien que les puces de commutation traditionnelles pour centres de données puissent être utilisées dans des scénarios d’IA, elles ont du mal à gérer le trafic d’IA axé sur la formation et l’inférence.
Examinons pourquoi l’Ethernet traditionnel est confronté à des limitations avec des modèles de trafic spécifiques à l’IA, principalement en raison d’un déséquilibre de charge, d’une latence et d’une gigue plus élevées et d’un mauvais contrôle de la congestion.
Problème de déséquilibre de charge ECMP
Les centres de données Ethernet traditionnels gèrent principalement des applications telles que la navigation sur le Web, la diffusion de musique et de vidéos, ainsi que les tâches de bureau quotidiennes. Ces applications impliquent généralement de petits flux de données nombreux (appelés « flux ») qui sont distribués de manière aléatoire, ce qui les rend particulièrement adaptés aux techniques d'équilibrage de charge multi-trajets basées sur des algorithmes de hachage (ECMP), qui garantissent une utilisation uniforme de la bande passante du réseau.
Cependant, dans la formation des modèles d'IA, les modèles, les paramètres, les GPU, les CPU et les cartes réseau sont étroitement couplés. Le trafic réseau se compose principalement d'opérations collectives à large bande passante telles que all-reduce et all-to-all. En règle générale, chaque GPU est associé à une carte réseau à large bande passante, et chaque carte réseau établit un nombre relativement faible de connexions de flux au cours de chaque processus de formation. Ces flux sont suffisamment importants pour consommer rapidement toute la bande passante de la carte réseau, ce que l'on appelle les « flux d'éléphants ».
En raison de la nature des flux d'éléphants, ils peuvent se concentrer sur des chemins de réseau spécifiques en raison d'algorithmes de hachage, ce qui entraîne une surcharge sévère sur ces chemins tandis que d'autres restent sous-utilisés. Cette distribution de trafic déséquilibrée rend les méthodes traditionnelles d'équilibrage de charge basées sur ECMP inefficaces, ce qui a un impact sur l'efficacité globale de la formation.
Problèmes de latence élevée et de gigue
Les applications Ethernet traditionnelles reposent sur la programmation des sockets TCP/IP, où le processeur doit copier les données utilisateur de l'espace utilisateur vers l'espace noyau, puis de l'espace noyau vers le pilote de la carte réseau pour le traitement et la transmission au récepteur. Ce processus augmente la latence et alourdit la charge de travail du processeur. Pour résoudre ces problèmes, les clusters informatiques IA modernes utilisent des réseaux sans perte prenant en charge la technologie RDMA (Remote Direct Memory Access), comme InfiniBand ou RDMA over Converged Ethernet (RoCE). Ces technologies réduisent considérablement la latence de transmission des données d'application en contournant le noyau (contournement du noyau) et en utilisant des mécanismes de copie zéro.
Dans les scénarios de formation de l'IA, des technologies telles que GPU Direct RDMA et GPU Direct Storage permettent un échange direct de données entre la mémoire GPU ou entre la mémoire GPU et le stockage via RDMA. Cela réduit la latence de transmission des données de la mémoire GPU à un dixième de l'original. De plus, la bibliothèque de communications collectives NVIDIA (NCCL) prend en charge de manière transparente les interfaces RDMA, simplifiant considérablement la transition des infrastructures TCP vers RDMA pour les applications d'IA.
Lors de l'entraînement de modèles volumineux avec des centaines de millions de paramètres, nous désassemblons souvent les données et les modèles pour un traitement parallèle afin d'améliorer l'efficacité. Dans ce processus, des milliers de GPU fonctionnent ensemble dans des configurations parallèles et inter-structurées complexes et multidimensionnelles, échangeant en permanence des paramètres et résumant les résultats de calcul. Il est essentiel de garantir que chaque étape de ce processus d'entraînement parallèle distribué soit efficace et stable. Toute défaillance d'un seul GPU ou une latence accrue dans la communication entre nœuds peut entraver l'ensemble du processus d'entraînement. Cette latence accrue non seulement prolonge le temps d'entraînement global, mais a également un impact négatif sur l'amélioration de la vitesse (rapport d'accélération de l'entraînement) et les résultats finaux. Par conséquent, l'entraînement de l'IA nécessite des réseaux avec une latence plus faible et une meilleure qualité de liaison.
Problèmes de contrôle de congestion du réseau
Dans la formation parallèle distribuée, les pics de trafic « incast », où plusieurs sources envoient des données à un seul récepteur, provoquent souvent une congestion du réseau. L'Ethernet traditionnel suit un modèle de service de meilleur effort, ce qui rend difficile d'éviter le débordement de la mémoire tampon et la perte de paquets, même avec une bonne qualité de service (QoS) de bout en bout. En règle générale, les protocoles de couche supérieure utilisent des mécanismes de retransmission pour atténuer les effets de la perte de paquets. Pour Ethernet prenant en charge RDMA, il est essentiel d'obtenir une perte de paquets nulle.
Pour atteindre cet objectif, deux technologies clés sont largement adoptées : les mécanismes de contrôle de flux hop-by-hop et les mécanismes de contrôle de congestion pour le trafic « incast ». Dans les réseaux RDMA sur Ethernet convergé (RoCE), ces mécanismes sont mis en œuvre respectivement sous la forme de contrôle de flux prioritaire (PFC) et de contrôle de congestion quantifié du centre de données (DCQCN).
Dans les scénarios de formation de l'IA, bien que le contrôle de flux prioritaire (PFC) et le contrôle de congestion quantifié du centre de données (DCQCN) atténuent la congestion du réseau, ils présentent toujours des lacunes importantes. Le PFC empêche la perte de données en générant une contre-pression saut par saut, mais cela peut entraîner des arbres de congestion, un blocage en tête de ligne et des boucles de blocage, affectant finalement les performances globales du réseau. Le DCQCN s'appuie sur le marquage ECN et les messages CNP pour ajuster les débits, mais son indication de congestion n'est pas précise et les ajustements de débit sont lents, incapables de répondre rapidement aux conditions dynamiques du réseau, limitant ainsi le débit. Les deux nécessitent des ajustements et une surveillance manuels, ce qui augmente les coûts opérationnels et la complexité de la maintenance, et ne répond pas aux exigences strictes en matière de réseaux hautes performances et à faible latence dans la formation de l'IA.
Comment NVIDIA Spectrum-X surmonte ces problèmes
La solution Spectrum-X de NVIDIA se distingue des autres fabricants de réseaux en s'attaquant aux limitations traditionnelles d'Ethernet dans la formation de l'IA. Selon le récent livre blanc technique, le principal avantage de Spectrum-X réside dans sa technologie de routage adaptatif, considérée comme sa fonction « phare ». Cette technologie s'attaque directement à l'allocation inégale de bande passante causée par les mécanismes de distribution de hachage statique dans l'Ethernet traditionnel.
En intégrant en profondeur les capacités des commutateurs côté réseau et des unités de traitement de données côté terminal, Spectrum-X permet une surveillance dynamique en temps réel de la bande passante physique de chaque lien et de l'état de congestion des ports de sortie. Sur la base de cette surveillance, Spectrum-X peut mettre en œuvre des stratégies de distribution de charge dynamiques et finement ajustées pour chaque paquet réseau, améliorant considérablement l'équilibre des liens et l'utilisation efficace de la bande passante, passant des 50 à 60 % traditionnels à plus de 97 %. Cette amélioration élimine directement les problèmes de latence à longue traîne causés par les « flux d'éléphants » (flux de transmission de données à grande échelle) dans les applications d'IA.
Comme illustré, le routage ECMP traditionnel peut entraîner des délais d'exécution considérablement prolongés pour des flux de données spécifiques en raison d'une utilisation inégale de la bande passante. En revanche, le routage adaptatif garantit que tous les flux de données sont répartis uniformément sur plusieurs liaisons, ce qui raccourcit et équilibre considérablement les temps de transmission de chaque flux de données, réduisant ainsi le cycle global d'achèvement des tâches de formation. Notamment, dans les modèles de communication collective courants dans les scénarios de formation de l'IA tels que all-reduce et all-to-all, Spectrum-X présente des avantages de performances significatifs par rapport à l'Ethernet traditionnel en raison de ses capacités supérieures d'utilisation de la bande passante de liaison.
Placement direct des données (DDP) : une solution révolutionnaire pour les problèmes de réassemblage hors service
Bien que les stratégies d'équilibrage de charge par paquet améliorent considérablement l'efficacité d'utilisation de la bande passante et soient devenues une solution très recherchée, le principal défi qu'elles posent est le réassemblage des paquets désordonnés à la réception. Ce problème a été difficile à surmonter pour l'industrie. Les méthodes traditionnelles reposent soit sur le traitement côté réseau, soit sur des solutions côté terminal, mais les deux sont limitées par des goulots d'étranglement des performances logicielles et matérielles, ce qui conduit à des résultats sous-optimaux.
Spectrum-X, avec son intégration innovante et profonde du matériel côté réseau du commutateur Spectrum-4 et côté terminal BlueField-3, répond avec élégance à ce défi. Voici une explication détaillée du flux de traitement DDP dans un scénario RoCE (RDMA sur Ethernet convergé) :
Sur le côté gauche, le trafic d'entraînement provenant de différentes mémoires GPU est d'abord spécialement marqué par leurs cartes réseau BlueField-3 d'envoi respectives. Ces paquets marqués sont ensuite envoyés aux commutateurs Spectrum-4 Top of Rack (TOR) directement connectés. Les commutateurs TOR, utilisant leurs puissantes capacités matérielles, identifient rapidement les paquets marqués BlueField-3 et, en fonction de l'état de la bande passante en temps réel et des conditions de mémoire tampon de la liaison montante, distribuent intelligemment les paquets de chaque flux de données sur quatre chemins de liaison montante vers quatre commutateurs de spine, en utilisant des algorithmes de routage dynamique par paquet.
Lorsque ces paquets traversent leurs commutateurs de colonne vertébrale respectifs, ils atteignent finalement le commutateur TOR de destination et sont ensuite transmis à la carte réseau BlueField-3 du serveur cible. En raison des différents chemins de transmission et des variations de performances des équipements, les paquets peuvent arriver à la carte réseau BlueField-3 de destination dans le désordre. La carte réseau BlueField-3 de destination, utilisant sa technologie DDP intégrée, identifie rapidement les paquets marqués BlueField-3 et lit directement les adresses mémoire des paquets, plaçant précisément les paquets dans la mémoire du GPU cible. Par la suite, la technologie DDP intègre davantage ces paquets dans le désordre, garantissant qu'ils sont combinés dans un flux de données complet dans le bon ordre, éliminant complètement les problèmes de désordre causés par les différences de chemin réseau et les disparités de performances des équipements.
Grâce à l'intégration transparente des technologies de routage dynamique et d'accélération matérielle DDP, Spectrum-X résout non seulement efficacement les problèmes d'allocation inégale de bande passante des mécanismes Ethernet ECMP (Equal-Cost Multi-Path) traditionnels, mais élimine également fondamentalement les phénomènes de latence à longue traîne causés par des paquets désordonnés. Cela fournit une solution de transmission de données plus stable et plus efficace pour les applications de calcul haute performance telles que la formation en IA.
Isolation des performances pour le multi-locataire de l'IA
Dans un écosystème cloud d'IA hautement concurrent, les fluctuations de performances des applications et les incertitudes d'exécution sont souvent étroitement liées à la congestion au niveau du réseau. Ce phénomène ne résulte pas seulement des fluctuations du trafic réseau de l'application elle-même, mais peut également être induit par le trafic d'arrière-plan d'autres applications concurrentes. Plus précisément, la congestion « plusieurs vers un » (plusieurs sources de données envoyant des données à un seul récepteur) devient un goulot d'étranglement des performances important, augmentant considérablement la pression de traitement sur le récepteur.
Dans un environnement réseau RoCE coexistant avec plusieurs locataires ou plusieurs tâches, même si des technologies telles que VXLAN peuvent atteindre un certain degré d'isolation de l'hôte, les problèmes de congestion du trafic des locataires et d'isolation des performances restent difficiles. Un scénario courant est celui où certaines applications fonctionnent parfaitement dans un environnement physique bare-metal, mais voient leurs performances chuter considérablement une fois migrées vers le cloud.
Par exemple, supposons que la charge de travail A et la charge de travail B s'exécutent simultanément dans le système. Lorsque la congestion du réseau se produit et déclenche des mécanismes de contrôle de congestion, en raison des informations limitées transportées par ECN, l'expéditeur ne peut pas déterminer à quel niveau de commutateur la congestion s'est produite ni dans quelle mesure elle s'est produite. Ainsi, il ne peut pas décider à quelle vitesse augmenter ou diminuer le débit d'envoi, s'appuyant souvent sur des méthodes heuristiques pour converger progressivement. Ce temps de convergence est long et peut facilement provoquer des interférences entre les tâches. De plus, les paramètres de contrôle de congestion sont nombreux et les commutateurs et les cartes réseau nécessitent des réglages de paramètres très détaillés et complexes. Le déclenchement trop rapide ou trop lent des mécanismes de contrôle de congestion peut avoir un impact significatif sur les performances commerciales du client.
Pour relever ces défis, Spectrum-X, avec sa puissante fonction de contrôle de congestion programmable sur la plate-forme matérielle BlueField-3, présente une solution avancée au-delà de l'algorithme DCQCN traditionnel. Spectrum-X réalise une évaluation précise des conditions de congestion sur le chemin de trafic grâce à la collaboration étroite du matériel BlueField-3 aux extrémités de l'expéditeur et du récepteur, en utilisant les paquets de sonde RTT (Round Trip Time) et les informations de télémétrie en bande des commutateurs intermédiaires. Ces informations incluent, sans s'y limiter, les horodatages des paquets transitant par les commutateurs et les taux d'utilisation du tampon de sortie, fournissant une base solide pour le contrôle de la congestion.
Les capacités de traitement hautes performances du matériel BlueField-3 lui permettent de gérer des millions de paquets de contrôle de congestion (CC) par seconde, ce qui permet d'obtenir un contrôle de congestion précis en fonction de différentes charges de travail. Cela permet d'atteindre efficacement les objectifs d'isolation des performances. Grâce à ce mécanisme, la charge de travail A et la charge de travail B peuvent chacune atteindre leurs performances optimales attendues sans être affectées négativement par la congestion des autres locataires.
En résumé, avec sa technologie matérielle innovante et ses algorithmes intelligents de contrôle de congestion, Spectrum-X fournit une solution d'isolation des performances efficace et précise pour les environnements cloud multi-locataires IA, aidant chaque locataire à atteindre des performances comparables à celles d'un environnement physique.
Composition du produit Spectrum-X
Commutateur SN5600 : Le commutateur SN5600 est un commutateur de boîtier 2U avancé qui intègre la puce unique Spectrum-4 51.2 Tbps, fabriquée avec le processus de pointe 4 nm de TSMC et incorporant un nombre impressionnant de 100 milliards de transistors.
Le commutateur est équipé de 64 ports OSFP 800G et peut prendre en charge de manière flexible une extension vers 128 ports 400G ou 256 ports 200G, répondant ainsi à divers besoins réseau. Son taux de transfert de paquets atteint 33.3 Bpps, avec 512 160 entrées de table de transfert et 172 Mo de cache partagé global, garantissant un transfert à débit de ligne même pour les paquets de 5600 octets. De plus, le SN1 est entièrement compatible avec les systèmes d'exploitation courants tels que Cumulus et Sonic, et ses fonctionnalités ont continuellement évolué au cours de la série Spectrum de la génération 4 à la génération XNUMX, offrant aux utilisateurs des performances et une flexibilité réseau améliorées.
BlueField-3 SuperNIC : Le BlueField-3 SuperNIC est un nouvel accélérateur réseau basé sur la plateforme BlueField-3, conçu pour alimenter des charges de travail d'IA à grande échelle. Développé spécifiquement pour le calcul parallèle à grande échelle gourmand en réseau, il fournit une connectivité RDMA jusqu'à 400 Gbit/s entre les serveurs GPU via Ethernet convergé, optimisant ainsi l'efficacité maximale des charges de travail d'IA. Le BlueField-3 SuperNIC marque une nouvelle ère dans le cloud computing d'IA, offrant des environnements de centre de données multi-locataires sécurisés et garantissant la cohérence des performances et l'isolation entre les tâches et les locataires.
Notamment, son puissant cadre de développement logiciel DOCA 2.0 offre des solutions logicielles hautement personnalisables, améliorant encore l'efficacité globale du système.
Câbles LinkX : la série de câbles LinkX se concentre sur la connectivité haut débit de bout en bout 800G et 400G, en utilisant la technologie 100G PAM4. Entièrement compatible avec les normes OSFP et QSFP112 MSA, elle couvre diverses formes de modules optiques, du DAC et ACC au multimode et au monomode, répondant ainsi à divers besoins de câblage. Ces câbles peuvent s'interfacer de manière transparente avec les ports OSFP 5600G du commutateur SN800, permettant des extensions 1 à 2 des ports OSFP 400G, améliorant ainsi la flexibilité et l'efficacité de la connexion réseau.
Résumé et étude de cas
Spectrum-X, la solution Ethernet IA pionnière de NVIDIA, intègre des technologies matérielles et logicielles de pointe, visant à remodeler l'écosystème de la puissance de calcul de l'IA. Ses principaux points forts comprennent le commutateur hautes performances ASIC Spectrum-4 développé en interne, les cartes réseau intelligentes DPU de la série BlueField et les câbles de module optique LinkX utilisant la technologie Direct Drive. Ensemble, ces composants matériels constituent une infrastructure robuste.
Sur le plan technologique, Spectrum-X intègre de nombreuses fonctionnalités innovantes, telles que des mécanismes de routage dynamique, une technologie de correction des pannes côté extrémité, des algorithmes de contrôle de congestion programmables de nouvelle génération et la plate-forme d'accélération logicielle d'IA complète DOCA 2.0. Ces fonctionnalités optimisent non seulement les performances et l'efficacité du réseau, mais améliorent également considérablement la réactivité et les capacités de traitement des applications d'IA, créant ainsi une base informatique efficace et fiable pour les utilisateurs du domaine de l'IA générative.
Cette solution hautement intégrée vise à combler le fossé entre Ethernet traditionnel et InfiniBand, en mettant l'accent sur la fourniture d'un support réseau personnalisé et hautes performances pour le marché du cloud IA. Elle répond aux exigences strictes des applications IA en matière de bande passante élevée, de faible latence et d'extension flexible, en menant les tendances technologiques Ethernet vers l'optimisation des scénarios spécifiques à l'IA et en visant à développer et à étendre ce marché émergent et prometteur.
Les avantages techniques de Spectrum-X sont illustrés par son cas d'application avec le fournisseur de services cloud français Scaleway. Fondé en 1999, Scaleway propose une infrastructure haute performance et plus de 80 produits et services cloud à plus de 25,000 XNUMX clients dans le monde, dont Mistral AI, Aternos, Hugging Face et Golem.ai. Scaleway fournit des services cloud à guichet unique pour développer des solutions innovantes et aider les utilisateurs à créer et à faire évoluer des projets d'IA à partir de zéro.
Actuellement, Scaleway construit un cloud d'IA régional offrant une infrastructure GPU pour la formation, l'inférence et le déploiement de modèles d'IA à grande échelle. L'adoption des GPU Hopper et de la plateforme réseau Spectrum-X de NVIDIA a considérablement amélioré la puissance de calcul de l'IA, raccourci le temps de formation de l'IA et accéléré le développement, le déploiement et la mise sur le marché de solutions d'IA, améliorant ainsi efficacement le retour sur investissement. Les clients de Scaleway peuvent passer de quelques GPU à des milliers pour répondre à n'importe quel cas d'utilisation de l'IA. Spectrum-X fournit non seulement les performances et la sécurité nécessaires aux environnements d'IA multi-locataires et multi-tâches, mais permet également d'isoler les performances grâce à des mécanismes tels que le routage dynamique, le contrôle de la congestion et les tampons partagés globaux. De plus, NetQ offre une visibilité approfondie sur l'état du réseau d'IA avec des fonctionnalités telles que les compteurs de trafic RoCE, les événements et les alertes WJH (What Just Happened), permettant la visualisation, le dépannage et la validation du réseau d'IA. Avec le support de NVIDIA Air et Cumulus Linux, Scaleway peut intégrer des environnements réseau natifs d'API dans la chaîne d'outils DevOps, garantissant des transitions transparentes du déploiement aux opérations.
Produits associés:
- NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m sur OM3/50m sur OM4 MTP/MPO-12 Module émetteur-récepteur optique FEC multimode $650.00
- NVIDIA MMA4Z00-NS-FLT Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $850.00
- NVIDIA MMA4Z00-NS Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $750.00
- NVIDIA MMS4X00-NM Compatible 800Gb/s double port OSFP 2x400G PAM4 1310nm 500m DOM double MTP/MPO-12 Module émetteur-récepteur optique SMF $1100.00
- NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 Module émetteur-récepteur optique SMF $1200.00
- NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Module Émetteur-Récepteur Optique $800.00
- Mellanox MMA1T00-HS Compatible 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 Module émetteur-récepteur optique $200.00
- NVIDIA MFP7E10-N010 Compatible 10 m (33 pieds) 8 fibres faible perte d'insertion femelle à femelle câble tronc MPO polarité B APC vers APC LSZH multimode OM3 50/125 $47.00
- NVIDIA MCP7Y00-N003-FLT Compatible 3m (10ft) OSFP double port 800G à 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $275.00
- NVIDIA MCP7Y70-H002 Compatible 2 m (7 pieds) 400G double port 2x200G OSFP à 4x100G QSFP56 câble en cuivre à connexion directe à dérivation passive $155.00
- Câble en cuivre actif NVIDIA MCA4J80-N003-FTF 3 m (10 pieds) 800G double port 2x400G OSFP vers 2x400G OSFP InfiniBand NDR, dessus plat à une extrémité et dessus à ailettes à l'autre $600.00
- NVIDIA MCP7Y10-N002 Compatible 2 m (7 pieds) 800G InfiniBand NDR double port OSFP vers 2x400G QSFP112 Breakout DAC $200.00