Évolution et défis de l'architecture des réseaux d'IA

Lorsque l’on parle de réseaux d’IA, on peut analyser deux dimensions clés. La première dimension est l’architecture réseau fondamentale fournie pour l’IA. La deuxième dimension est l’application de la technologie d’IA dans les opérations et la maintenance du réseau. Nous avons intégré diverses fonctionnalités et solutions pour améliorer nos systèmes internes, notamment les opérations d’IA (AIOps) et l’observabilité. Nos commutateurs sont équipés de plusieurs capteurs et de fonctionnalités de sécurité telles que Smart System Upgrade (SSU), qui sont des fonctionnalités essentielles des réseaux d’IA. La fonction SSU permet des mises à jour transparentes des correctifs de sécurité et des mises à niveau du système tout en maintenant les services réseau critiques opérationnels, et elle prend en charge l’analyse prédictive.

Tous les produits Arista, qu'il s'agisse de commutateurs de campus, de routeurs WAN ou de gros commutateurs de centre de données 400G avec 576 ports, fonctionnent sur le même système d'exploitation extensible (EOS). De plus, tous les produits sont gérés via la plate-forme logicielle unifiée CloudVision, offrant aux clients des solutions de bout en bout de haute qualité qui garantissent des performances constantes dans différents environnements. Cette uniformité a été très appréciée par les clients.

Traditionnellement, les réseaux fonctionnent en silos isolés. Par exemple, nous avions le réseau frontal et le réseau dorsal dans les centres de données, le réseau dorsal étant principalement composé de HPC dominé par InfiniBand. Avec l’avancée de la technologie de l’IA, nous assistons à un passage des centres de données traditionnels aux centres centrés sur l’IA. Dans les centres d’IA, le réseau dorsal connecte les GPU, tandis que le réseau frontal connecte les réseaux de centres de données traditionnels, les systèmes de stockage et les WAN, couvrant ainsi essentiellement tous les composants réseau nécessaires à la construction d’un centre d’IA unifié.

Une diapositive du groupe 650 illustre l’évolution historique et les projections futures des vitesses des ports des centres de données. Comme illustré, les ports à haut débit suivent une trajectoire de croissance significative. Le graphique consolide les vitesses de 800 G et 1.6 T, ce qui est logique : le 800 G s’appuie sur 8 x 100 G SERDES, tandis que le 1.6 T utilise 16 x 100 G ou 8 x 200 G SERDES. Cette croissance est alimentée par une demande de réseau IA d’environ 30 à 40 %, reflétant l’expansion des clusters IA, en particulier des clusters de formation. À l’avenir, les opérations d’inférence stimuleront également cette croissance. Par conséquent, les capacités d’E/S doivent suivre le rythme des améliorations des performances du GPU. Sur le côté droit du graphique, l’ASIC 51.2 T affiche le taux d’adoption le plus rapide de l’histoire, marquant une transition rapide de 25.6 T à 51.2 T, avec des puces 100 T qui pourraient suivre à un rythme encore plus rapide. Traditionnellement, les mises à niveau de vitesse prenaient plusieurs années, mais stimulées par la demande de l'IA, les transitions technologiques se produisent désormais tous les 1.5 à 2 ans pour répondre aux besoins en bande passante des GPU et autres accélérateurs.
Des centres de données traditionnels aux centres d'IA : le parcours de transformation d'Arista
Transformation architecturale:Les réseaux de centres de données traditionnels utilisent généralement une architecture à plusieurs niveaux, le réseau frontal connectant les appareils des utilisateurs et les réseaux externes, et le réseau dorsal utilisant principalement la technologie InfiniBand pour répondre aux exigences du calcul haute performance (HPC). Cependant, avec l'avancement rapide de la technologie de l'IA, les philosophies de conception des centres de données évoluent vers des modèles centrés sur l'IA.
Réorganisation des composants:Dans les architectures de centres de données IA, le réseau back-end connecte les GPU, tandis que le réseau front-end continue de relier les réseaux de centres de données traditionnels, les systèmes de stockage et les WAN. Il en résulte un environnement réseau complet centré sur les charges de travail IA.

En ce qui concerne les systèmes modulaires, les produits phares d'Arista pour l'architecture dorsale d'IA sont dotés des plus grands châssis, prenant en charge jusqu'à 576 ports 800G. Cette configuration permet aux réseaux plus petits de se connecter à un grand châssis, atteignant plus de 1100 400 ports XNUMXG à l'échelle, ce qui fournit près d'un demi-pétaoctet de bande passante à partir d'un seul châssis. Pour les clusters plus importants, tels que ceux qui comptent des dizaines ou des centaines de milliers de GPU, la conception optimale utilise une architecture réseau double couche leaf-spine pour le backend. Le maintien de cette structure à double couche est crucial dans les scénarios d'IA, car l'équilibrage de charge est une préoccupation majeure. Assurer une distribution adéquate du trafic permet d'éviter la congestion, évite que les GPU individuels ne ralentissent l'ensemble de la charge de travail, réduit les interruptions et diminue la consommation d'énergie des réseaux à haute puissance.
Défis des charges de travail de l'IA sur les réseaux
Demande de bande passante : l’échelle et les exigences de calcul des modèles d’IA augmentent de manière exponentielle, entraînant une forte augmentation de la demande de bande passante du réseau.
Trafic en rafale : chaque flux de données provenant des serveurs de formation d'IA génère un trafic en rafale à des débits de ligne, impliquant généralement seulement 4 à 8 flux de données, mais ce modèle peut provoquer une grave congestion du réseau.
Goulots d'étranglement de latence : le calcul distribué fait du chemin de trafic le plus lent un goulot d'étranglement, toute latence du réseau ayant potentiellement un impact significatif sur les performances globales.
Surveillance du trafic : la surveillance et le dépannage du trafic IA sont très difficiles en raison de sa vitesse élevée et de sa nature explosive, ce qui rend les outils de surveillance traditionnels insuffisants.
Solutions de réseau IA d'Arista
Arista propose une suite complète de solutions de réseau IA, couvrant des plates-formes de commutation hautes performances, des architectures réseau innovantes, des fonctionnalités logicielles avancées et des technologies optiques efficaces pour relever les différents défis posés par les charges de travail de l'IA.
Commutateurs Ethernet hautes performances :
Gamme de produits : Arista propose une gamme complète de commutateurs Ethernet 800G, y compris des configurations fixes et des systèmes modulaires.
Série Etherlink AI :
Systèmes de configuration fixe : dotés de la puce Broadcom 512T, équipés de 64 ports 800G (équivalent à 128 ports 400G), adaptés aux charges de travail d'IA de petite à moyenne taille.
Systèmes modulaires : produits phares de dorsale d'IA prenant en charge jusqu'à 576 ports 800G par châssis, idéaux pour les centres de données à très grande échelle.
Série 7700 : les systèmes Etherlink distribués utilisent une conception à saut unique, prenant en charge l'extension jusqu'à 32,000 XNUMX GPU, répondant ainsi aux besoins informatiques à plus grande échelle.
Système d'exploitation : tous les commutateurs fonctionnent sur Arista EOS (Extensible Operating System), gérés uniformément via la plate-forme CloudVision, améliorant l'efficacité de la gestion.

Le châssis 51.2 Tbps d'Arista, construit sur un processus de 5 nanomètres et équipé de 64 ports 800G, est le choix le plus économe en énergie actuellement disponible. Dans les clusters d'IA, l'équilibrage de charge et la consommation d'énergie sont les deux principaux défis, l'efficacité énergétique étant une préoccupation majeure pour les clients. L'industrie s'oriente vers l'optique enfichable linéaire (LPO) pour améliorer l'efficacité énergétique des modules optiques et du réseau. Les économies d'énergie côté réseau peuvent être réaffectées à davantage de GPU ou de xPU.
Il s'agit d'une innovation matérielle intelligente. D'après les retours d'expérience de nos principaux clients, retirer tous les câbles, démonter le châssis et effectuer des réparations lorsqu'un composant tombe en panne à l'intérieur du châssis est une tâche fastidieuse. En règle générale, les composants dont le temps moyen entre pannes (MTBF) est le plus court sont la mémoire (RAM), les disques SSD ou les unités centrales de traitement (CPU). Pour résoudre ce problème, notre conception système permet de retirer l'intégralité du module CPU après avoir retiré les deux ventilateurs du côté droit.
Un autre avantage de cette conception est sa capacité à répondre aux besoins de sécurité de certains clients concernant les données propriétaires sur les SSD. Comme le module CPU peut être retiré indépendamment, les clients peuvent manipuler ces données en toute sécurité pendant la maintenance. Cette conception apporte un confort considérable et marque une innovation matérielle majeure.

Le 7700R4, produit de dernière génération, est équipé de cartes de ligne 800G. Dans sa plus grande configuration, le châssis peut prendre en charge jusqu'à 1,152 400 ports XNUMXG, capables de fournir près d'un demi-pétaoctet de débit de données. Ce châssis utilise une architecture de mise en file d'attente de sortie virtuelle (VOQ) entièrement basée sur les cellules, garantissant un équilibrage de charge parfait. Cette conception est particulièrement adaptée aux clients qui construisent de petits clusters, où un seul châssis suffit ; il sert également de périphérique réseau dorsal IA idéal pour les clients qui construisent de grands clusters.

Technologies innovantes d'équilibrage de charge
- Défi : Les algorithmes traditionnels ECMP (Equal-Cost Multi-Tray) sont inefficaces pour gérer le trafic IA, ce qui incite Arista à développer diverses solutions d'équilibrage de charge ciblées :
- Disposition prenant en compte la congestion : répartit le trafic de manière intelligente sur différentes liaisons montantes en fonction de la charge du réseau en temps réel, réduisant ainsi le risque de congestion.
- Équilibrage de charge basé sur RDMA : utilise des algorithmes logiciels pour obtenir un équilibrage de charge précis en fonction des caractéristiques du trafic RDMA.
- Commutateur Etherlink distribué (DES) : résout les problèmes d'équilibrage de charge grâce au transfert de paquets au niveau matériel, en utilisant un schéma d'interconnexion à saut unique pour réduire la latence.
- Conception de l'architecture : présente une architecture réseau à double couche ne nécessitant qu'un seul saut dans la pratique, avec la puce principale située dans le commutateur feuille et la colonne vertébrale agissant comme un dispositif de commutation à grande vitesse.
- Protocole de transmission par pulvérisation de paquets : une future alternative au protocole RDMA, conçue pour gérer les paquets désordonnés et améliorer efficacement la stabilité de la transmission des données.
Différence entre la mise en file d'attente de sortie virtuelle (VOQ) et l'équilibrage de charge pris en charge par RDMA : VOQ fait référence à l'architecture du châssis, qui utilise des files d'attente de sortie virtuelles pour allouer des paquets entre les ports d'entrée et de sortie, ce qui est un processus entièrement planifié. En revanche, l'équilibrage de charge pris en charge par RDMA implique un équilibrage de charge dynamique avec une attention particulière portée aux caractéristiques du trafic RDMA, ce qui permet d'équilibrer la charge ou de procéder au hachage en fonction de ce trafic.


Le diagramme fournit un aperçu complet de l'architecture réseau, englobant à la fois les réseaux frontaux traditionnels et les réseaux IA back-end dédiés. Selon la taille du cluster, les configurations peuvent inclure des châssis fixes plus petits, des racks ou un hybride des deux. Pour les clusters à très grande échelle, une architecture à trois niveaux peut même être envisagée.
Le back-end et le front-end de l'IA nécessitent tous deux des systèmes de stockage dédiés. De plus, des connexions WAN sont nécessaires. Cette présentation présente l'architecture globale d'un grand réseau d'IA.
Capacités de visualisation améliorées
- Outils de surveillance du réseau : les méthodes traditionnelles de surveillance du réseau ont du mal à détecter les fluctuations de l'ordre de la microseconde dans le trafic IA. Arista propose divers outils de surveillance innovants :
- AI Analyzer : capture les statistiques de trafic à des intervalles de 100 microsecondes, fournissant des informations détaillées sur le comportement du réseau, permettant une identification rapide des problèmes de congestion et d'équilibrage de charge.
- Agent AI : étend EOS aux serveurs NIC, permettant une gestion et une surveillance centralisées des connexions ToR et NIC.
- Découverte automatisée : l'agent IA peut découvrir et synchroniser automatiquement les configurations entre les commutateurs et les cartes réseau, prenant en charge diverses extensions de plug-in de carte réseau.
- Collecte de données : collecte les données du compteur NIC, offrant une vue réseau plus complète et des capacités d'analyse améliorées.
Mécanismes complets de contrôle de la congestion
- Techniques de gestion de la congestion : Arista utilise plusieurs techniques pour gérer efficacement la congestion du réseau, notamment :
- Contrôle de flux prioritaire (PFC) : empêche la perte de paquets causée par l'agrégation du trafic du dernier saut grâce au contrôle de flux prioritaire.
- Notification de congestion explicite (ECN) : réduit la vitesse de transmission des données lors d'une congestion du bus PCI, évitant ainsi les pannes de réseau.
- Télémétrie dans le réseau : fournit des informations granulaires sur la profondeur de la file d'attente de congestion du réseau, facilitant la surveillance et l'optimisation en temps réel.
Assurance de haute fiabilité :
- Technologies de haute disponibilité : Arista propose diverses fonctionnalités pour garantir la haute disponibilité des réseaux d'IA :
- Mises à niveau non perturbatrices (SSU) : prend en charge les mises à niveau de la version EOS sans aucun temps d'arrêt.
- Optimisation du plan de données : optimise les performances de la puce pour garantir un fonctionnement stable du réseau.
- Surveillance complète des liaisons L1 : surveille l'état de 400,000 XNUMX modules optiques en temps réel, identifie et résout rapidement les pannes pour garantir la fiabilité du réseau.

Le joyau de la couronne d'Arista : EOS (Extensible Operating System) et ses fonctionnalités :
Dans un environnement d'IA, l'équilibrage de charge est crucial. Nous proposons diverses fonctionnalités, notamment l'équilibrage de charge dynamique (DLB), l'équilibrage de charge de congestion (CLB), le hachage basé sur l'en-tête RDMA, la notification de congestion quantifiée du centre de données (DCQCN), la notification de congestion explicite (ECN) et les méthodes de contrôle de congestion du contrôle de flux prioritaire (PFC). De plus, nous proposons des fonctionnalités améliorées telles que la surveillance PFC et les options multi-locataires.
Si vous créez des clusters GPU ou xPU et envisagez de les proposer en tant que service, des capacités de segmentation et de multi-location seront nécessaires. C'est là qu'entrent en jeu le réseau local extensible virtuel (VXLAN) et le réseau privé virtuel Ethernet (EVPN). Une fois déployés, la surveillance et la visualisation sont essentielles pour accéder aux données de télémétrie, identifier les points de congestion et les liens défectueux, garantissant ainsi la fiabilité et la robustesse du réseau.
Technologie optique et tendances futures
Optique linéaire enfichable (LPO) :
- Caractéristiques de conception : Le LPO 800G utilise une conception linéaire, réduisant considérablement les coûts et la consommation d'énergie.
- Perspectives d'avenir : Le LPO 1.6 T peut réduire davantage la consommation d'énergie et devrait atteindre une production à grande échelle d'ici 2025, devenant ainsi une technologie clé pour réduire la consommation d'énergie dans les clusters d'IA.

Dans les réseaux, c'est tout aussi important. Lors de l'examen de la technologie optique 400G, une inadéquation entre les signaux électriques et les signaux optiques est observée. Les signaux électriques sont 8X 50G, tandis que les signaux optiques sont 4X 100G, ce qui nécessite un réducteur pour convertir le signal électrique 50G en signal optique 100G. Outre la conversion du signal, le réducteur a également des capacités d'amplification du signal. Quel est le rôle du réducteur ? Il fournit un gain de puissance pour le signal optique mais ajoute également des coûts. À des vitesses de 800G, la situation est linéaire, ce qui est une caractéristique favorable. Les signaux électriques sont 8X 100G PAM-4, et les signaux optiques sont également 8X 100G PAM-4, ce qui permet une correspondance parfaite des vitesses des signaux optiques, ce qui conduit au coût le plus bas et à une conception optique plus simple.
Intégration au niveau du rack :
- Solution d'intégration : intégration de davantage de GPU et de technologies réseau dans le même rack, à l'aide d'interconnexions optiques en câble cuivre pour améliorer les performances globales.
- Analyse de cas : Le rack NVL72 de Nvidia intègre 72 GPU avec une consommation électrique allant jusqu'à 120 kilowatts. Si l'intégration au niveau du rack offre des avantages en termes de coût et de consommation d'énergie, elle est également confrontée à des défis en matière de gestion thermique.
Dans les clusters d'IA, si vous êtes curieux de connaître les schémas de connexion optique les plus couramment utilisés, la plupart des clusters d'IA adoptent une conception en bout de rack. Ici, le VSR800 4G est utilisé, offrant une distance de transmission de 50 mètres, suffisante pour connecter n'importe quel GPU depuis l'extrémité du rack. Entre la feuille et la colonne vertébrale, le XDR4 ou le FR4 peuvent être utilisés ; l'un prend en charge la transmission jusqu'à 500 mètres, l'autre jusqu'à 2 kilomètres.

Consortium Ultra Ethernet (UEC) :
- Contexte organisationnel : Arista est l’un des membres fondateurs de l’UEC, promouvant activement le développement de la technologie Ethernet.
- Objectifs techniques : L'UEC vise à relever les défis réseau posés par les charges de travail de l'IA et du HPC, notamment les protocoles de transmission, le contrôle de la congestion et la technologie de pulvérisation de paquets.
- Publication des spécifications : l'UEC devrait publier des spécifications de réseau multicouche plus tard en 2024, favorisant ainsi la normalisation du secteur.
Mise à l'échelle des réseaux d'IA :
- Support architectural : Arista propose différentes architectures réseau pour prendre en charge des clusters d'IA de différentes tailles, notamment :
- Architecture Leaf-Spine à double couche : adaptée aux clusters de petite à moyenne taille, offrant une utilisation efficace de la bande passante.
- Architecture réseau à trois niveaux : adaptée aux clusters à très grande échelle, améliorant l'évolutivité du réseau.
- Architecture réseau multiplan : étend l'échelle du réseau via plusieurs plans indépendants, prenant en charge une concurrence plus élevée.
- Architecture de planification distribuée : réalise des connexions logiques à saut unique, prenant en charge les besoins d'extension jusqu'à 32,000 XNUMX GPU.
- Demande du marché : la création de clusters d’IA à très grande échelle est coûteuse, mais la demande croissante du marché en matière de calcul haute performance et de traitement de big data continue de stimuler l’innovation et le développement des technologies connexes.
Produits associés:
-
Arista Networks QDD-400G-SR8 Compatible 400G QSFP-DD SR8 PAM4 850nm 100m MTP/MPO OM3 FEC Module émetteur-récepteur optique $149.00
-
Arista Networks QDD-400G-DR4 Compatible 400G QSFP-DD DR4 PAM4 1310nm 500m MTP/MPO SMF FEC Module émetteur-récepteur optique $400.00
-
Module émetteur-récepteur optique Arista QDD-400G-VSR4 Compatible QSFP-DD 400G SR4 PAM4 850nm 100m MTP/MPO-12 OM4 FEC $450.00
-
Arista Networks QDD-400G-FR4 Compatible 400G QSFP-DD FR4 PAM4 CWDM4 Module émetteur-récepteur optique LC SMF FEC 2 km $500.00
-
Arista Networks QDD-400G-XDR4 Compatible 400G QSFP-DD XDR4 PAM4 1310nm 2km MTP/MPO-12 SMF FEC Module émetteur-récepteur optique $580.00
-
Arista Networks QDD-400G-LR4 Compatible 400G QSFP-DD LR4 PAM4 CWDM4 10km LC SMF FEC Module émetteur-récepteur optique $600.00
-
Arista QDD-400G-SRBD Compatible 400G QSFP-DD SR4 BiDi PAM4 850nm/910nm 100m/150m OM4/OM5 MMF MPO-12 Module émetteur-récepteur optique FEC $900.00
-
Arista Networks QDD-400G-PLR4 Compatible 400G QSFP-DD PLR4 PAM4 1310nm 10km MTP/MPO-12 SMF FEC Module émetteur-récepteur optique $1000.00
-
Arista Q112-400G-DR4 Compatible 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12 avec Module émetteur-récepteur optique FEC $650.00
-
Arista Q112-400G-SR4 Compatible 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC Module émetteur-récepteur optique $450.00
-
Arista OSFP-400G-LR4 Compatible 400G LR4 OSFP PAM4 CWDM4 LC 10km SMF Module émetteur-récepteur optique $1199.00
-
Arista OSFP-400G-XDR4 Compatible 400G OSFP DR4+ 1310nm MPO-12 Module émetteur-récepteur optique SMF 2km $850.00
-
Arista Networks OSFP-400G-2FR4 Compatible 2x 200G OSFP FR4 PAM4 2x CWDM4 CS 2km SMF FEC Module Émetteur-Récepteur Optique $1500.00
-
Arista Networks OSFP-400G-FR4 Compatible 400G OSFP FR4 PAM4 CWDM4 2 km LC SMF FEC Module émetteur-récepteur optique $900.00
-
Arista Networks OSFP-400G-DR4 Compatible 400G OSFP DR4 PAM4 1310nm MTP/MPO-12 500m SMF FEC Module Émetteur-Récepteur Optique $800.00
-
Arista Networks OSFP-400G-SR8 Compatible 400G OSFP SR8 PAM4 850nm MTP/MPO-16 100m OM3 MMF FEC Module Émetteur-Récepteur Optique $225.00
-
Module émetteur-récepteur optique double MPO-800 MMF compatible OSFP 2x4G SR2 PAM400 4 nm 4 m DOM Arista OSFP-850G-100SR12 $650.00
-
Arista OSFP-800G-2PLR4 Compatible OSFP 8x100G LR PAM4 1310nm double MPO-12 10km SMF Module émetteur-récepteur optique $1800.00
-
Arista OSFP-800G-2XDR4 Compatible OSFP 8x100G FR PAM4 1310nm double MPO-12 2km SMF Module émetteur-récepteur optique $1100.00
-
Arista OSFP-800G-2LR4 Compatible OSFP 2x400G LR4 PAM4 CWDM4 double duplex LC 10 km SMF Module émetteur-récepteur optique $2000.00