Un aperçu de l'intérieur du commutateur Marvell 51.2T (64 ports 800G)

Aujourd'hui, nous allons explorer les composants internes d'un grand commutateur couvrant 64 ports de 800 GbE. Le Marvell Teralynx 10 est un commutateur de 51.2 Tbit/s, qui devrait devenir un composant clé des clusters d'IA d'ici 2025. Ce commutateur réseau de grande taille est tout à fait fascinant.

Marvell 51.2T

Marvell a acquis Innovium en 2021, suite à notre examen du commutateur 7x 32GbE basé sur Innovium Teralynx 400. Nous avions précédemment démonté le commutateur de génération 12.8 Tbit/s (32 ports 400GbE) de cette startup.

Commutateur 7x 32GbE basé sur Innovium Teralynx 400

Innovium est devenue la start-up la plus performante de sa génération, réalisant des percées significatives dans les centres de données hyperscale. Par exemple, en 2019, Intel a annoncé l'acquisition de Barefoot Networks pour obtenir des puces de commutation Ethernet. Cependant, d'ici le quatrième trimestre 4, Intel a déclaré son intention de céder cette activité de commutation Ethernet. Broadcom détient une position importante sur le marché des puces de commutation commerciales, tandis qu'Innovium/Marvell a réussi à pénétrer les centres de données hyperscale, contrairement à d'autres entreprises qui ont investi massivement mais ont échoué.

La disruption de l'IA crée de nouveaux points d'entrée

Compte tenu de l'ampleur de la construction de clusters d'IA, la génération de puces de commutation de 51.2 Tbit/s est considérable. Nous avons demandé à Marvell s'il pouvait mettre à jour le démontage du Teralynx 2021 de 7 et fournir des informations sur le nouveau Marvell Teralynx 10.

Vue de face du commutateur

Le commutateur est doté d'un châssis 2U, principalement composé de cages OSFP et de canaux de circulation d'air. Il y a 64 ports OSFP au total, chacun fonctionnant à 800 Gbit/s.

Le commutateur dispose d'un châssis 2U

Chaque port est équipé d'optiques enfichables OSFP, qui sont généralement plus grandes que les appareils de génération QSFP+/QSFP28 auxquels vous êtes peut-être habitué.

Optique enfichable OSFP

Marvell a introduit plusieurs modules optiques, exploitant les composants issus de son acquisition d'Inphi. Nous en avons parlé dans divers contextes, tels que les modules photoniques au silicium Marvell COLORZ 800G et le DSP Orion pour les réseaux de nouvelle génération. Ce commutateur peut utiliser ces modules optiques et les ports peuvent fonctionner à des vitesses autres que 800 Gbit/s.

Modules photoniques en silicium Marvell COLORZ 800G

L'un des aspects les plus intéressants est celui des modules optiques longue distance, capables d'atteindre 800 Gbit/s sur des centaines de kilomètres ou plus. Ces modules s'intègrent dans des cages OSFP et ne nécessitent pas les grands boîtiers optiques longue distance qui sont la norme dans l'industrie depuis des années.

Ces modules s'intègrent dans les cages OSFP

Les modules OSFP peuvent être dotés de dissipateurs thermiques intégrés, ce qui élimine le besoin de dissipateurs thermiques dans les cages. Dans certains commutateurs 100 GbE et 400 GbE, les cages optiques nécessitent des dissipateurs thermiques en raison de la consommation d'énergie élevée des modules.

les cages optiques nécessitent des dissipateurs de chaleur

Sur le côté droit du commutateur, il y a les ports de gestion et de console.

ports de gestion et de console

L'arrière du commutateur abrite des ventilateurs et des blocs d'alimentation, chacun avec son propre ventilateur.

L'arrière du commutateur abrite des ventilateurs et des blocs d'alimentation

Étant donné que ce commutateur peut utiliser des modules optiques consommant environ 1.8 kW et dispose d'une puce de commutation de 500 W, des alimentations nominales supérieures à 2 kW sont attendues.

Puce de commutation 500 W

Ensuite, examinons les composants internes du commutateur pour voir ce qui alimente ces cages OSFP.

Nous commencerons par les cages OSFP à droite et nous dirigerons vers les alimentations et les ventilateurs à gauche.

Présentation du commutateur

En ouvrant l'interrupteur, la première chose qui attire le regard est le grand dissipateur thermique.

le grand dissipateur thermique

Ce dissipateur thermique, présenté avec un passeport d'échelle expiré, est assez substantiel.

Ce dissipateur thermique, présenté avec un passeport expiré pour l'échelle

Voici une vue de dessous du dissipateur thermique.

Voici une vue de dessous du dissipateur thermique.

La puce elle-même est un composant de 500 W et 5 nm.

La puce elle-même est un composant de 500 W et 5 nm.

Marvell nous a permis de nettoyer la puce pour prendre quelques photos sans le dissipateur thermique.

sans le dissipateur thermique

Cela nous donne une vue claire des cages OSFP sans le dissipateur thermique.

une vue claire des cages OSFP sans le dissipateur thermique

De ce point de vue, il n'y a que 32 cages OSFP car le PCB du commutateur est situé entre deux blocs.

seulement 32 cages OSFP

Derrière les cages OSFP, nous avons la puce Teralynx 10.

seulement 32 cages OSFP

Pour ceux qui sont intéressés, des informations plus détaillées sur le Teralynx 10 peuvent être trouvées dans notre diagramme de fonctionnalités précédent.

diagramme de fonctionnalités

Une différence notable est que de nombreux composants du commutateur sont inclinés, plutôt que d’être horizontaux ou parallèles aux bords de la puce du commutateur.

de nombreux composants du commutateur sont inclinés

Voici une photo de haut en bas du commutateur, présentant la puce de commutation 64 GbE à 800 ports. Pour ceux qui sont familiers avec la technologie des serveurs, nous examinons les cartes réseau à port unique 800 GbE de l'ère PCIe Gen6, alors qu'aujourd'hui nous avons des cartes réseau 400 GbE PCIe Gen5 x16. Cette puce a la capacité de gérer les cartes réseau 128 PCIe Gen5 400 GbE les plus rapides disponibles aujourd'hui.

les cartes réseau 128 PCIe Gen5 400GbE les plus rapides

Comme de nombreux commutateurs, le commutateur Teralynx 10 dispose d'un contrôleur de gestion dédié, basé sur la carte de gestion Marvell Octeon. Nous avons été informés que d'autres commutateurs pourraient utiliser x86.

Conseil d'administration de Marvell Octeon

Un SSD M.2 est situé sur la carte de distribution d'alimentation principale.

Un SSD M.2 est situé sur la carte de distribution d'alimentation principale.

Une fonctionnalité intéressante est l'emplacement PCIe intégré pour les diagnostics.

Une fonctionnalité intéressante est l'emplacement PCIe intégré pour les diagnostics.

Juste en dessous, il y a un port 10Gbase-T exposé en interne comme interface de gestion.

Juste en dessous, il y a un port 10Gbase-T exposé en interne comme interface de gestion.

Un autre aspect à prendre en compte est l'épaisseur du circuit imprimé du commutateur. Si les cartes mères des serveurs étaient aussi épaisses, de nombreuses conceptions de serveurs 1U seraient confrontées à des défis de refroidissement importants. En termes de refroidissement, le commutateur dispose d'une configuration de ventilateur relativement simple, avec quatre modules de ventilateur à l'arrière du châssis.

quatre modules de ventilateur à l'arrière du châssis

Marvell dispose d'un laboratoire dans un autre bâtiment où ces commutateurs sont testés. L'entreprise a temporairement libéré le laboratoire pour nous permettre de photographier le commutateur en fonctionnement.

ces commutateurs sont testés

Voici la vue arrière.

la vue arrière

À côté du commutateur Teralynx 10 se trouve le boîtier de test Keysight Ixia AresONE 800GbE.

Boîtier de test Keysight Ixia AresONE 800GbE.

Générer du trafic 800 GbE sur un seul port n'est pas une mince affaire, car ce type de connexion est plus rapide que le PCIe Gen5 x16 sur les serveurs. C'était fascinant de voir ce dispositif en fonctionnement dans le laboratoire. Nous avions déjà acheté un boîtier Spirent d'occasion pour des tests 10 GbE, mais Spirent a refusé de nous fournir une licence média/analyste. Les appareils comme ce boîtier 800 GbE sont incroyablement chers.

Boîtier 800GbE

L'entreprise dispose également d'un châssis plus grand dans son laboratoire pour les tests 100 GbE. En tant que fournisseur de commutateurs, Marvell a besoin d'un tel équipement pour valider les performances dans diverses conditions.

double 400GbE en cours d'exécution

Voici un exemple de double 400 GbE fonctionnant via le commutateur Teralynx à un débit de ligne d'environ 99.3 %.

le commutateur Teralynx à environ 99.3 % de débit de ligne

Pourquoi choisir un commutateur 51.2 Tbit/s ?

Deux facteurs principaux motivent l'adoption des commutateurs 51.2T sur le marché. Le premier est le sujet toujours populaire de l'IA, et le second est l'impact de la consommation d'énergie et du radix.

Pourquoi choisir un commutateur 51.2 Tbit/s

Le Teralynx 10 de Marvell offre une latence d'environ 500 nanosecondes tout en offrant une bande passante immense. Cette latence prévisible, combinée aux fonctionnalités de contrôle de congestion, de programmabilité et de télémétrie de la puce de commutation, permet de garantir que les grands clusters conservent des performances optimales. Permettre aux accélérateurs d'IA de rester inactifs en attendant le réseau est une proposition très coûteuse.

Teralynx 10 offre une latence d'environ 500 nanosecondes

Un autre exemple est Radix. Des commutateurs plus grands peuvent réduire le nombre de couches de commutation, ce qui réduit à son tour le nombre de commutateurs, de fibres, de câbles et d'autres composants nécessaires pour connecter le cluster.

Des commutateurs plus grands peuvent réduire le nombre de couches de commutation

Étant donné que le Teralynx 10 peut gérer un radix de 512, en se connectant via jusqu'à 512 liaisons 100 GbE, certains réseaux peuvent réduire le besoin de trois niveaux de commutation à seulement deux. Dans les grands clusters de formation d'IA, cela permet non seulement d'économiser sur les équipements, mais aussi de réduire considérablement la consommation d'énergie. Marvell a fourni un exemple où un radix plus grand pourrait réduire la consommation d'énergie de plus de 1 MW.

le Teralynx 10 peut gérer un radix de 512

Marvell a également partagé une diapositive montrant un commutateur avec un refroidisseur intéressant s'étendant depuis le châssis. Il semble qu'il s'agisse d'un prototype de bureau, ce que nous avons trouvé assez intriguant.

un refroidisseur intéressant s'étendant depuis le châssis.

Enfin, si l’on voit souvent l’avant et même l’arrière des commutateurs sur les photos en ligne et dans les centres de données, on a rarement l’occasion de voir comment ces commutateurs fonctionnent en interne. Grâce à Marvell, nous avons pu voir le commutateur en fonctionnement et même le démonter jusqu’au silicium.

l'interrupteur en fonctionnement

Innovium, désormais filiale de Marvell, est l'une des rares équipes du secteur à avoir réussi à concurrencer Broadcom et à remporter des victoires en hyperscale. Nous avons vu d'autres grands fournisseurs de silicium échouer dans ce processus. Compte tenu de la demande du marché pour une commutation à haut rayon, à large bande passante et à faible latence dans les clusters d'IA, le Teralynx 10 est susceptible de devenir la plus grande gamme de produits de l'entreprise depuis le Teralynx 7. La concurrence dans ce domaine est intense.

le Teralynx 10 est susceptible de devenir la plus grande gamme de produits de l'entreprise

Bien sûr, tous les réseaux comportent de nombreuses couches. Nous pourrions même mener une étude complète des modules optiques, sans parler des logiciels, des performances, etc. Cependant, montrer ce qui se passe à l'intérieur de ces commutateurs reste tout à fait fascinant.

Laisser un commentaire

Remonter en haut