Aujourd'hui, nous allons explorer les composants internes d'un grand commutateur couvrant 64 ports de 800 GbE. Le Marvell Teralynx 10 est un commutateur de 51.2 Tbit/s, qui devrait devenir un composant clé des clusters d'IA d'ici 2025. Ce commutateur réseau de grande taille est tout à fait fascinant.

Marvell a acquis Innovium en 2021, suite à notre examen du commutateur 7x 32GbE basé sur Innovium Teralynx 400. Nous avions précédemment démonté le commutateur de génération 12.8 Tbit/s (32 ports 400GbE) de cette startup.

Innovium est devenue la start-up la plus performante de sa génération, réalisant des percées significatives dans les centres de données hyperscale. Par exemple, en 2019, Intel a annoncé l'acquisition de Barefoot Networks pour obtenir des puces de commutation Ethernet. Cependant, d'ici le quatrième trimestre 4, Intel a déclaré son intention de céder cette activité de commutation Ethernet. Broadcom détient une position importante sur le marché des puces de commutation commerciales, tandis qu'Innovium/Marvell a réussi à pénétrer les centres de données hyperscale, contrairement à d'autres entreprises qui ont investi massivement mais ont échoué.

Compte tenu de l'ampleur de la construction de clusters d'IA, la génération de puces de commutation de 51.2 Tbit/s est considérable. Nous avons demandé à Marvell s'il pouvait mettre à jour le démontage du Teralynx 2021 de 7 et fournir des informations sur le nouveau Marvell Teralynx 10.

Le commutateur est doté d'un châssis 2U, principalement composé de cages OSFP et de canaux de circulation d'air. Il y a 64 ports OSFP au total, chacun fonctionnant à 800 Gbit/s.

Chaque port est équipé d'optiques enfichables OSFP, qui sont généralement plus grandes que les appareils de génération QSFP+/QSFP28 auxquels vous êtes peut-être habitué.

Marvell a introduit plusieurs modules optiques, exploitant les composants issus de son acquisition d'Inphi. Nous en avons parlé dans divers contextes, tels que les modules photoniques au silicium Marvell COLORZ 800G et le DSP Orion pour les réseaux de nouvelle génération. Ce commutateur peut utiliser ces modules optiques et les ports peuvent fonctionner à des vitesses autres que 800 Gbit/s.

L'un des aspects les plus intéressants est celui des modules optiques longue distance, capables d'atteindre 800 Gbit/s sur des centaines de kilomètres ou plus. Ces modules s'intègrent dans des cages OSFP et ne nécessitent pas les grands boîtiers optiques longue distance qui sont la norme dans l'industrie depuis des années.

Les modules OSFP peuvent être dotés de dissipateurs thermiques intégrés, ce qui élimine le besoin de dissipateurs thermiques dans les cages. Dans certains commutateurs 100 GbE et 400 GbE, les cages optiques nécessitent des dissipateurs thermiques en raison de la consommation d'énergie élevée des modules.

Sur le côté droit du commutateur, il y a les ports de gestion et de console.

L'arrière du commutateur abrite des ventilateurs et des blocs d'alimentation, chacun avec son propre ventilateur.

Étant donné que ce commutateur peut utiliser des modules optiques consommant environ 1.8 kW et dispose d'une puce de commutation de 500 W, des alimentations nominales supérieures à 2 kW sont attendues.

Ensuite, examinons les composants internes du commutateur pour voir ce qui alimente ces cages OSFP.
Nous commencerons par les cages OSFP à droite et nous dirigerons vers les alimentations et les ventilateurs à gauche.

En ouvrant l'interrupteur, la première chose qui attire le regard est le grand dissipateur thermique.

Ce dissipateur thermique, présenté avec un passeport d'échelle expiré, est assez substantiel.

Voici une vue de dessous du dissipateur thermique.

La puce elle-même est un composant de 500 W et 5 nm.

Marvell nous a permis de nettoyer la puce pour prendre quelques photos sans le dissipateur thermique.

Cela nous donne une vue claire des cages OSFP sans le dissipateur thermique.

De ce point de vue, il n'y a que 32 cages OSFP car le PCB du commutateur est situé entre deux blocs.

Derrière les cages OSFP, nous avons la puce Teralynx 10.

Pour ceux qui sont intéressés, des informations plus détaillées sur le Teralynx 10 peuvent être trouvées dans notre diagramme de fonctionnalités précédent.

Une différence notable est que de nombreux composants du commutateur sont inclinés, plutôt que d’être horizontaux ou parallèles aux bords de la puce du commutateur.

Voici une photo de haut en bas du commutateur, présentant la puce de commutation 64 GbE à 800 ports. Pour ceux qui sont familiers avec la technologie des serveurs, nous examinons les cartes réseau à port unique 800 GbE de l'ère PCIe Gen6, alors qu'aujourd'hui nous avons des cartes réseau 400 GbE PCIe Gen5 x16. Cette puce a la capacité de gérer les cartes réseau 128 PCIe Gen5 400 GbE les plus rapides disponibles aujourd'hui.

Comme de nombreux commutateurs, le commutateur Teralynx 10 dispose d'un contrôleur de gestion dédié, basé sur la carte de gestion Marvell Octeon. Nous avons été informés que d'autres commutateurs pourraient utiliser x86.

Un SSD M.2 est situé sur la carte de distribution d'alimentation principale.

Une fonctionnalité intéressante est l'emplacement PCIe intégré pour les diagnostics.

Juste en dessous, il y a un port 10Gbase-T exposé en interne comme interface de gestion.

Un autre aspect à prendre en compte est l'épaisseur du circuit imprimé du commutateur. Si les cartes mères des serveurs étaient aussi épaisses, de nombreuses conceptions de serveurs 1U seraient confrontées à des défis de refroidissement importants. En termes de refroidissement, le commutateur dispose d'une configuration de ventilateur relativement simple, avec quatre modules de ventilateur à l'arrière du châssis.

Marvell dispose d'un laboratoire dans un autre bâtiment où ces commutateurs sont testés. L'entreprise a temporairement libéré le laboratoire pour nous permettre de photographier le commutateur en fonctionnement.

Voici la vue arrière.

À côté du commutateur Teralynx 10 se trouve le boîtier de test Keysight Ixia AresONE 800GbE.

Générer du trafic 800 GbE sur un seul port n'est pas une mince affaire, car ce type de connexion est plus rapide que le PCIe Gen5 x16 sur les serveurs. C'était fascinant de voir ce dispositif en fonctionnement dans le laboratoire. Nous avions déjà acheté un boîtier Spirent d'occasion pour des tests 10 GbE, mais Spirent a refusé de nous fournir une licence média/analyste. Les appareils comme ce boîtier 800 GbE sont incroyablement chers.

L'entreprise dispose également d'un châssis plus grand dans son laboratoire pour les tests 100 GbE. En tant que fournisseur de commutateurs, Marvell a besoin d'un tel équipement pour valider les performances dans diverses conditions.

Voici un exemple de double 400 GbE fonctionnant via le commutateur Teralynx à un débit de ligne d'environ 99.3 %.

Pourquoi choisir un commutateur 51.2 Tbit/s ?
Deux facteurs principaux motivent l'adoption des commutateurs 51.2T sur le marché. Le premier est le sujet toujours populaire de l'IA, et le second est l'impact de la consommation d'énergie et du radix.

Le Teralynx 10 de Marvell offre une latence d'environ 500 nanosecondes tout en offrant une bande passante immense. Cette latence prévisible, combinée aux fonctionnalités de contrôle de congestion, de programmabilité et de télémétrie de la puce de commutation, permet de garantir que les grands clusters conservent des performances optimales. Permettre aux accélérateurs d'IA de rester inactifs en attendant le réseau est une proposition très coûteuse.

Un autre exemple est Radix. Des commutateurs plus grands peuvent réduire le nombre de couches de commutation, ce qui réduit à son tour le nombre de commutateurs, de fibres, de câbles et d'autres composants nécessaires pour connecter le cluster.

Étant donné que le Teralynx 10 peut gérer un radix de 512, en se connectant via jusqu'à 512 liaisons 100 GbE, certains réseaux peuvent réduire le besoin de trois niveaux de commutation à seulement deux. Dans les grands clusters de formation d'IA, cela permet non seulement d'économiser sur les équipements, mais aussi de réduire considérablement la consommation d'énergie. Marvell a fourni un exemple où un radix plus grand pourrait réduire la consommation d'énergie de plus de 1 MW.

Marvell a également partagé une diapositive montrant un commutateur avec un refroidisseur intéressant s'étendant depuis le châssis. Il semble qu'il s'agisse d'un prototype de bureau, ce que nous avons trouvé assez intriguant.

Enfin, si l’on voit souvent l’avant et même l’arrière des commutateurs sur les photos en ligne et dans les centres de données, on a rarement l’occasion de voir comment ces commutateurs fonctionnent en interne. Grâce à Marvell, nous avons pu voir le commutateur en fonctionnement et même le démonter jusqu’au silicium.

Innovium, désormais filiale de Marvell, est l'une des rares équipes du secteur à avoir réussi à concurrencer Broadcom et à remporter des victoires en hyperscale. Nous avons vu d'autres grands fournisseurs de silicium échouer dans ce processus. Compte tenu de la demande du marché pour une commutation à haut rayon, à large bande passante et à faible latence dans les clusters d'IA, le Teralynx 10 est susceptible de devenir la plus grande gamme de produits de l'entreprise depuis le Teralynx 7. La concurrence dans ce domaine est intense.

Bien sûr, tous les réseaux comportent de nombreuses couches. Nous pourrions même mener une étude complète des modules optiques, sans parler des logiciels, des performances, etc. Cependant, montrer ce qui se passe à l'intérieur de ces commutateurs reste tout à fait fascinant.
Produits associés:
-
Module émetteur-récepteur optique OSFP 4x50G FR2 PAM400 4nm 4km DOM double Duplex LC SMF Compatible NVIDIA MMS1310X2-NM $1200.00
-
NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 Module émetteur-récepteur optique SMF $1199.00
-
NVIDIA MMA4Z00-NS-FLT Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $650.00
-
NVIDIA MMS4X00-NM Compatible 800Gb/s double port OSFP 2x400G PAM4 1310nm 500m DOM double MTP/MPO-12 Module émetteur-récepteur optique SMF $900.00
-
NVIDIA MMA4Z00-NS Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $650.00
-
QSFP-DD-800G-SR8 800G SR8 QSFP-DD 850nm 100m OM4 MMF MPO-16 Module Émetteur-Récepteur Optique $850.00
-
OSFP-800G-2FR4 OSFP 2x400G FR4 PAM4 CWDM4 Module émetteur-récepteur optique double CS SMF DOM 2 km $1500.00
-
QSFP-DD-800G-LR8 QSFP-DD 8x100G LR PAM4 1310nm 10km MPO-16 SMF FEC Module émetteur-récepteur optique $1600.00
-
OSFP-800G-FR8L OSFP 800G FR8 PAM4 CWDM8 Module émetteur-récepteur optique duplex LC 2km SMF $3000.00
-
OSFP-800G-SR8D OSFP 8x100G SR8 PAM4 850nm 100m DOM double module émetteur-récepteur optique MPO-12 MMF $650.00