Hoy exploraremos los componentes internos de un gran conmutador que abarca 64 puertos de 800 GbE. El Marvell Teralynx 10 es un conmutador de 51.2 Tbps que se convertirá en un componente clave en los clústeres de IA en 2025. Este conmutador de red sustancial es bastante fascinante.

Marvell adquirió Innovium en 2021, después de que examináramos el conmutador de 7 puertos 32 GbE basado en Innovium Teralynx 400. Anteriormente, habíamos desmontado el conmutador de 12.8 Tbps (32 puertos 400 GbE) de esta empresa emergente.

Innovium surgió como la startup más exitosa de su generación, logrando avances significativos en los centros de datos a hiperescala. Por ejemplo, en 2019, Intel anunció la adquisición de Barefoot Networks para obtener chips de conmutación Ethernet. Sin embargo, en el cuarto trimestre de 4, Intel declaró su intención de deshacerse de este negocio de conmutación Ethernet. Broadcom tiene una posición significativa en el mercado de chips de conmutación comercial, mientras que Innovium/Marvell ha penetrado con éxito en los centros de datos a hiperescala, a diferencia de otras empresas que invirtieron mucho pero fracasaron.

Dada la escala de la construcción de clústeres de IA, la generación de chips de conmutación de 51.2 Tbps es sustancial. Preguntamos si Marvell podría actualizar el desmontaje de Teralynx 2021 de 7 y brindar información sobre el nuevo Marvell Teralynx 10.

El conmutador cuenta con un chasis 2U, compuesto principalmente por compartimentos OSFP y canales de flujo de aire. Hay 64 puertos OSFP en total, cada uno de los cuales funciona a 800 Gbps.

Cada puerto está equipado con ópticas conectables OSFP, que generalmente son más grandes que los dispositivos de generación QSFP+/QSFP28 a los que quizás esté acostumbrado.

Marvell ha presentado varios módulos ópticos, aprovechando los componentes de su adquisición de Inphi. Hemos hablado de ello en varios contextos, como los módulos fotónicos de silicio Marvell COLORZ 800G y el DSP Orion para redes de próxima generación. Este conmutador puede utilizar estos módulos ópticos y los puertos pueden funcionar a velocidades distintas de 800 Gbps.

Uno de los aspectos más interesantes son los módulos ópticos de larga distancia, capaces de alcanzar 800 Gbps a lo largo de cientos de kilómetros o más. Estos módulos encajan en las jaulas OSFP y no requieren las grandes cajas ópticas de larga distancia que han sido estándares de la industria durante años.

Los módulos OSFP pueden tener disipadores de calor integrados, lo que elimina la necesidad de disipadores de calor en las jaulas. En algunos conmutadores de 100 GbE y 400 GbE, las jaulas ópticas requieren disipadores de calor debido al alto consumo de energía de los módulos.

En el lado derecho del conmutador, hay puertos de administración y consola.

La parte posterior del conmutador alberga ventiladores y fuentes de alimentación, cada uno con su propio ventilador.

Dado que este conmutador puede utilizar módulos ópticos que consumen alrededor de 1.8 kW y tiene un chip de conmutación de 500 W, se esperan fuentes de alimentación con una potencia superior a 2 kW.

A continuación, analicemos el interior del conmutador para ver qué alimenta estas jaulas OSFP.
Comenzaremos desde las jaulas OSFP a la derecha y avanzaremos hacia las fuentes de alimentación y los ventiladores a la izquierda.

Al abrir el interruptor, lo primero que llama la atención es el gran disipador de calor.

Este disipador de calor, que se muestra con un pasaporte vencido para comparar la escala, es bastante grande.

Aquí se muestra una vista inferior del disipador de calor.

El chip en sí es un componente de 500 W y 5 nm.

Marvell nos permitió limpiar el chip para tomar algunas fotos sin el disipador de calor.

Esto nos da una visión clara de las jaulas OSFP sin el disipador de calor.

Desde esta perspectiva, solo hay 32 jaulas OSFP porque la PCB del conmutador está situada entre dos bloques.

Detrás de las jaulas OSFP, tenemos el chip Teralynx 10.

Para aquellos interesados, pueden encontrar información más detallada sobre el Teralynx 10 en nuestro diagrama de características anterior.

Una diferencia notable es que muchos componentes del interruptor están en ángulo, en lugar de ser horizontales o paralelos a los bordes del chip del interruptor.

Aquí se muestra una fotografía de arriba hacia abajo del conmutador, que muestra el chip de conmutación de 64 GbE con 800 puertos. Para aquellos familiarizados con la tecnología de servidores, estamos viendo NIC de un solo puerto de 800 GbE en la era PCIe Gen6, mientras que hoy tenemos NIC PCIe Gen400 x5 de 16 GbE. Este chip tiene la capacidad de manejar las NIC PCIe Gen128 de 5 GbE de 400 más rápidas disponibles en la actualidad.

Al igual que muchos conmutadores, el conmutador Teralynx 10 tiene un controlador de administración dedicado, basado en la placa de administración Marvell Octeon. Nos informaron que otros conmutadores podrían utilizar x86.

Un SSD M.2 se encuentra en la placa de distribución de energía principal.

Una característica interesante es la ranura PCIe incorporada para diagnóstico.

Justo debajo de esto, hay un puerto 10Gbase-T expuesto internamente como interfaz de administración.

Otro aspecto a tener en cuenta es el grosor de la placa de circuito impreso del conmutador. Si las placas base de los servidores tuvieran este grosor, muchos diseños de servidores 1U se enfrentarían a importantes problemas de refrigeración. En cuanto a la refrigeración, el conmutador tiene una configuración de ventiladores relativamente sencilla, con cuatro módulos de ventiladores en la parte trasera del chasis.

Marvell tiene un laboratorio en otro edificio donde se prueban estos interruptores. La empresa despejó temporalmente el laboratorio para permitirnos fotografiar el interruptor en funcionamiento.

Aquí está la vista posterior.

Junto al conmutador Teralynx 10 se encuentra la caja de prueba Keysight Ixia AresONE 800GbE.

Generar tráfico de 800 GbE en un solo puerto no es tarea fácil, ya que es más rápido que PCIe Gen5 x16 en servidores. Fue fascinante ver este dispositivo en funcionamiento en el laboratorio. Anteriormente habíamos comprado una caja Spirent de segunda mano para realizar pruebas de 10 GbE, pero Spirent se negó a proporcionar una licencia de analista/medios. Los dispositivos como esta caja de 800 GbE son increíblemente caros.

La empresa también cuenta con un chasis más grande en el laboratorio para realizar pruebas de 100 GbE. Como proveedor de conmutadores, Marvell necesita este tipo de equipos para validar el rendimiento en diversas condiciones.

A continuación se muestra un ejemplo de 400 GbE dual que se ejecuta a través del conmutador Teralynx a una velocidad de línea de aproximadamente el 99.3 %.

¿Por qué elegir un conmutador de 51.2 Tbps?
Hay dos fuerzas principales que impulsan la adopción de conmutadores 51.2T en el mercado. La primera es el tema cada vez más popular de la IA y la segunda es el impacto del consumo de energía y la radix.

El Teralynx 10 de Marvell ofrece una latencia de aproximadamente 500 nanosegundos y, al mismo tiempo, proporciona un ancho de banda inmenso. Esta latencia predecible, combinada con el control de congestión, la capacidad de programación y las funciones de telemetría del chip de conmutación, ayuda a garantizar que los clústeres grandes mantengan un rendimiento óptimo. Dejar que los aceleradores de IA permanezcan inactivos mientras esperan la red es una propuesta muy costosa.

Otro ejemplo es el radix. Los conmutadores más grandes pueden reducir la cantidad de capas de conmutación, lo que a su vez reduce la cantidad de conmutadores, fibras, cables y otros componentes necesarios para conectar el clúster.

Dado que Teralynx 10 puede manejar un radio de 512 y conectarse a través de enlaces de 512 GbE de hasta 100x, algunas redes pueden reducir la necesidad de tres niveles de conmutación a solo dos. En grandes clústeres de entrenamiento de IA, esto no solo ahorra en equipos de capital, sino que también reduce significativamente el consumo de energía. Marvell proporcionó un ejemplo en el que un radio más grande podría reducir el consumo de energía en más de 1 MW.

Marvell también compartió una diapositiva que muestra un Switch con un interesante disipador de calor que se extiende desde el chasis. Parece ser un prototipo de escritorio, lo cual nos pareció bastante intrigante.

Por último, aunque a menudo vemos la parte delantera e incluso la trasera de los conmutadores en las fotografías de Internet y de los centros de datos, rara vez vemos cómo funcionan estos conmutadores internamente. Gracias a Marvell, pudimos ver el conmutador en funcionamiento e incluso desmontarlo hasta el silicio.

Innovium, ahora una subsidiaria de Marvell, es uno de los pocos equipos en la industria que ha competido con éxito con Broadcom y ha logrado victorias a gran escala. Hemos visto a otros importantes proveedores de silicio fracasar en este proceso. Dada la demanda del mercado de conmutación de alta densidad, gran ancho de banda y baja latencia en clústeres de IA, es probable que Teralynx 10 se convierta en la línea de productos más grande de la empresa desde Teralynx 7. La competencia en este campo es intensa.

Por supuesto, todas las redes tienen muchas capas. Incluso podríamos realizar un estudio exhaustivo de los módulos ópticos, sin mencionar el software, el rendimiento y más. Sin embargo, mostrar lo que sucede dentro de estos conmutadores sigue siendo bastante fascinante.
Productos relacionados:
-
Módulo transceptor óptico OSFP 4x50G FR2 PAM400 4nm 4km DOM Dual Duplex LC SMF compatible con NVIDIA MMS1310X2-NM $1200.00
-
NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Módulo transceptor óptico $1199.00
-
NVIDIA MMA4Z00-NS-FLT Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $650.00
-
NVIDIA MMS4X00-NM Compatible 800 Gb/s Puerto doble OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 Módulo transceptor óptico SMF $900.00
-
NVIDIA MMA4Z00-NS Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $650.00
-
Módulo transceptor óptico QSFP-DD-800G-SR8 800G SR8 QSFP-DD 850nm 100m OM4 MMF MPO-16 $850.00
-
OSFP-800G-2FR4 OSFP 2x400G FR4 PAM4 CWDM4 2km DOM Dual CS SMF Módulo transceptor óptico $1500.00
-
Módulo transceptor óptico QSFP-DD-800G-LR8 QSFP-DD 8x100G LR PAM4 1310nm 10km MPO-16 SMF FEC $1600.00
-
OSFP-800G-FR8L OSFP 800G FR8 PAM4 CWDM8 Duplex LC 2km SMF Módulo transceptor óptico $3000.00
-
OSFP-800G-SR8D OSFP 8x100G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $650.00