Un vistazo al interior del conmutador Marvell 51.2T (64 puertos 800G)

Hoy exploraremos los componentes internos de un gran conmutador que abarca 64 puertos de 800 GbE. El Marvell Teralynx 10 es un conmutador de 51.2 Tbps que se convertirá en un componente clave en los clústeres de IA en 2025. Este conmutador de red sustancial es bastante fascinante.

Marvell 51.2T

Marvell adquirió Innovium en 2021, después de que examináramos el conmutador de 7 puertos 32 GbE basado en Innovium Teralynx 400. Anteriormente, habíamos desmontado el conmutador de 12.8 Tbps (32 puertos 400 GbE) de esta empresa emergente.

Conmutador Innovium Teralynx 7 de 32 puertos y 400 GbE

Innovium surgió como la startup más exitosa de su generación, logrando avances significativos en los centros de datos a hiperescala. Por ejemplo, en 2019, Intel anunció la adquisición de Barefoot Networks para obtener chips de conmutación Ethernet. Sin embargo, en el cuarto trimestre de 4, Intel declaró su intención de deshacerse de este negocio de conmutación Ethernet. Broadcom tiene una posición significativa en el mercado de chips de conmutación comercial, mientras que Innovium/Marvell ha penetrado con éxito en los centros de datos a hiperescala, a diferencia de otras empresas que invirtieron mucho pero fracasaron.

La disrupción de la IA crea nuevos puntos de entrada

Dada la escala de la construcción de clústeres de IA, la generación de chips de conmutación de 51.2 Tbps es sustancial. Preguntamos si Marvell podría actualizar el desmontaje de Teralynx 2021 de 7 y brindar información sobre el nuevo Marvell Teralynx 10.

Vista frontal del interruptor

El conmutador cuenta con un chasis 2U, compuesto principalmente por compartimentos OSFP y canales de flujo de aire. Hay 64 puertos OSFP en total, cada uno de los cuales funciona a 800 Gbps.

El conmutador cuenta con un chasis 2U

Cada puerto está equipado con ópticas conectables OSFP, que generalmente son más grandes que los dispositivos de generación QSFP+/QSFP28 a los que quizás esté acostumbrado.

Óptica enchufable OSFP

Marvell ha presentado varios módulos ópticos, aprovechando los componentes de su adquisición de Inphi. Hemos hablado de ello en varios contextos, como los módulos fotónicos de silicio Marvell COLORZ 800G y el DSP Orion para redes de próxima generación. Este conmutador puede utilizar estos módulos ópticos y los puertos pueden funcionar a velocidades distintas de 800 Gbps.

Módulos fotónicos de silicio Marvell COLORZ 800G

Uno de los aspectos más interesantes son los módulos ópticos de larga distancia, capaces de alcanzar 800 Gbps a lo largo de cientos de kilómetros o más. Estos módulos encajan en las jaulas OSFP y no requieren las grandes cajas ópticas de larga distancia que han sido estándares de la industria durante años.

Estos módulos encajan en las jaulas OSFP

Los módulos OSFP pueden tener disipadores de calor integrados, lo que elimina la necesidad de disipadores de calor en las jaulas. En algunos conmutadores de 100 GbE y 400 GbE, las jaulas ópticas requieren disipadores de calor debido al alto consumo de energía de los módulos.

Las jaulas ópticas requieren disipadores de calor

En el lado derecho del conmutador, hay puertos de administración y consola.

puertos de administración y consola

La parte posterior del conmutador alberga ventiladores y fuentes de alimentación, cada uno con su propio ventilador.

La parte posterior del conmutador alberga ventiladores y fuentes de alimentación.

Dado que este conmutador puede utilizar módulos ópticos que consumen alrededor de 1.8 kW y tiene un chip de conmutación de 500 W, se esperan fuentes de alimentación con una potencia superior a 2 kW.

Chip de conmutación de 500 W

A continuación, analicemos el interior del conmutador para ver qué alimenta estas jaulas OSFP.

Comenzaremos desde las jaulas OSFP a la derecha y avanzaremos hacia las fuentes de alimentación y los ventiladores a la izquierda.

Descripción general del Switch

Al abrir el interruptor, lo primero que llama la atención es el gran disipador de calor.

El gran disipador de calor

Este disipador de calor, que se muestra con un pasaporte vencido para comparar la escala, es bastante grande.

Este disipador de calor, que se muestra con un pasaporte vencido para fines de escala.

Aquí se muestra una vista inferior del disipador de calor.

Aquí se muestra una vista inferior del disipador de calor.

El chip en sí es un componente de 500 W y 5 nm.

El chip en sí es un componente de 500 W y 5 nm.

Marvell nos permitió limpiar el chip para tomar algunas fotos sin el disipador de calor.

Sin el disipador de calor

Esto nos da una visión clara de las jaulas OSFP sin el disipador de calor.

Una vista clara de las jaulas OSFP sin el disipador de calor.

Desde esta perspectiva, solo hay 32 jaulas OSFP porque la PCB del conmutador está situada entre dos bloques.

solo 32 jaulas OSFP

Detrás de las jaulas OSFP, tenemos el chip Teralynx 10.

solo 32 jaulas OSFP

Para aquellos interesados, pueden encontrar información más detallada sobre el Teralynx 10 en nuestro diagrama de características anterior.

diagrama de características

Una diferencia notable es que muchos componentes del interruptor están en ángulo, en lugar de ser horizontales o paralelos a los bordes del chip del interruptor.

Muchos componentes del interruptor están en ángulo.

Aquí se muestra una fotografía de arriba hacia abajo del conmutador, que muestra el chip de conmutación de 64 GbE con 800 puertos. Para aquellos familiarizados con la tecnología de servidores, estamos viendo NIC de un solo puerto de 800 GbE en la era PCIe Gen6, mientras que hoy tenemos NIC PCIe Gen400 x5 de 16 GbE. Este chip tiene la capacidad de manejar las NIC PCIe Gen128 de 5 GbE de 400 más rápidas disponibles en la actualidad.

Las NIC PCIe Gen128 5GbE 400 más rápidas

Al igual que muchos conmutadores, el conmutador Teralynx 10 tiene un controlador de administración dedicado, basado en la placa de administración Marvell Octeon. Nos informaron que otros conmutadores podrían utilizar x86.

Junta directiva de Marvell Octeon

Un SSD M.2 se encuentra en la placa de distribución de energía principal.

Un SSD M.2 se encuentra en la placa de distribución de energía principal.

Una característica interesante es la ranura PCIe incorporada para diagnóstico.

Una característica interesante es la ranura PCIe incorporada para diagnóstico.

Justo debajo de esto, hay un puerto 10Gbase-T expuesto internamente como interfaz de administración.

Justo debajo de esto, hay un puerto 10Gbase-T expuesto internamente como interfaz de administración.

Otro aspecto a tener en cuenta es el grosor de la placa de circuito impreso del conmutador. Si las placas base de los servidores tuvieran este grosor, muchos diseños de servidores 1U se enfrentarían a importantes problemas de refrigeración. En cuanto a la refrigeración, el conmutador tiene una configuración de ventiladores relativamente sencilla, con cuatro módulos de ventiladores en la parte trasera del chasis.

cuatro módulos de ventilador en la parte trasera del chasis

Marvell tiene un laboratorio en otro edificio donde se prueban estos interruptores. La empresa despejó temporalmente el laboratorio para permitirnos fotografiar el interruptor en funcionamiento.

Estos interruptores están probados

Aquí está la vista posterior.

La vista posterior

Junto al conmutador Teralynx 10 se encuentra la caja de prueba Keysight Ixia AresONE 800GbE.

Caja de prueba Keysight Ixia AresONE 800GbE.

Generar tráfico de 800 GbE en un solo puerto no es tarea fácil, ya que es más rápido que PCIe Gen5 x16 en servidores. Fue fascinante ver este dispositivo en funcionamiento en el laboratorio. Anteriormente habíamos comprado una caja Spirent de segunda mano para realizar pruebas de 10 GbE, pero Spirent se negó a proporcionar una licencia de analista/medios. Los dispositivos como esta caja de 800 GbE son increíblemente caros.

Caja de 800 GbE

La empresa también cuenta con un chasis más grande en el laboratorio para realizar pruebas de 100 GbE. Como proveedor de conmutadores, Marvell necesita este tipo de equipos para validar el rendimiento en diversas condiciones.

Doble 400 GbE en funcionamiento

A continuación se muestra un ejemplo de 400 GbE dual que se ejecuta a través del conmutador Teralynx a una velocidad de línea de aproximadamente el 99.3 %.

El conmutador Teralynx a una velocidad de línea de aproximadamente el 99.3 %

¿Por qué elegir un conmutador de 51.2 Tbps?

Hay dos fuerzas principales que impulsan la adopción de conmutadores 51.2T en el mercado. La primera es el tema cada vez más popular de la IA y la segunda es el impacto del consumo de energía y la radix.

¿Por qué elegir un conmutador de 51.2 Tbps?

El Teralynx 10 de Marvell ofrece una latencia de aproximadamente 500 nanosegundos y, al mismo tiempo, proporciona un ancho de banda inmenso. Esta latencia predecible, combinada con el control de congestión, la capacidad de programación y las funciones de telemetría del chip de conmutación, ayuda a garantizar que los clústeres grandes mantengan un rendimiento óptimo. Dejar que los aceleradores de IA permanezcan inactivos mientras esperan la red es una propuesta muy costosa.

Teralynx 10 ofrece una latencia de aproximadamente 500 nanosegundos

Otro ejemplo es el radix. Los conmutadores más grandes pueden reducir la cantidad de capas de conmutación, lo que a su vez reduce la cantidad de conmutadores, fibras, cables y otros componentes necesarios para conectar el clúster.

Los conmutadores más grandes pueden reducir la cantidad de capas de conmutación

Dado que Teralynx 10 puede manejar un radio de 512 y conectarse a través de enlaces de 512 GbE de hasta 100x, algunas redes pueden reducir la necesidad de tres niveles de conmutación a solo dos. En grandes clústeres de entrenamiento de IA, esto no solo ahorra en equipos de capital, sino que también reduce significativamente el consumo de energía. Marvell proporcionó un ejemplo en el que un radio más grande podría reducir el consumo de energía en más de 1 MW.

El Teralynx 10 puede manejar un radio de 512

Marvell también compartió una diapositiva que muestra un Switch con un interesante disipador de calor que se extiende desde el chasis. Parece ser un prototipo de escritorio, lo cual nos pareció bastante intrigante.

Un interesante enfriador que se extiende desde el chasis.

Por último, aunque a menudo vemos la parte delantera e incluso la trasera de los conmutadores en las fotografías de Internet y de los centros de datos, rara vez vemos cómo funcionan estos conmutadores internamente. Gracias a Marvell, pudimos ver el conmutador en funcionamiento e incluso desmontarlo hasta el silicio.

el interruptor en funcionamiento

Innovium, ahora una subsidiaria de Marvell, es uno de los pocos equipos en la industria que ha competido con éxito con Broadcom y ha logrado victorias a gran escala. Hemos visto a otros importantes proveedores de silicio fracasar en este proceso. Dada la demanda del mercado de conmutación de alta densidad, gran ancho de banda y baja latencia en clústeres de IA, es probable que Teralynx 10 se convierta en la línea de productos más grande de la empresa desde Teralynx 7. La competencia en este campo es intensa.

Es probable que el Teralynx 10 se convierta en la línea de productos más grande de la compañía.

Por supuesto, todas las redes tienen muchas capas. Incluso podríamos realizar un estudio exhaustivo de los módulos ópticos, sin mencionar el software, el rendimiento y más. Sin embargo, mostrar lo que sucede dentro de estos conmutadores sigue siendo bastante fascinante.

Deja Tu Comentario

Ir al Inicio