Comprensión de la solución Spectrum-X de NVIDIA

La solución Spectrum-X de NVIDIA es la primera solución Ethernet de extremo a extremo del mundo diseñada específicamente para la IA generativa. Esta solución integral incluye varios componentes clave: los conmutadores de la serie Spectrum-4, las SuperNIC BlueField-3, los módulos de cable de alto rendimiento LinkX 800G/400G y una solución de software integral con capacidades de aceleración de hardware. El verdadero poder de Spectrum-X reside en la estrecha integración tanto del hardware como del software; el uso de una sola pieza de forma aislada no muestra plenamente su máxima eficiencia.

NVIDIA Spectrum-X

En la actualidad, muchos de los principales fabricantes de chips han lanzado chips de conmutación diseñados para aplicaciones de IA y aprendizaje automático (ML), con un rendimiento de chip único que alcanza hasta 51.2 Tbps. Si bien los chips de conmutación de centros de datos tradicionales se pueden usar en escenarios de IA, tienen dificultades para ser eficientes cuando se maneja tráfico de IA enfocado en el entrenamiento y la inferencia.

Profundicemos en por qué el Ethernet tradicional enfrenta limitaciones con los modelos de tráfico específicos de IA, principalmente debido al desequilibrio de carga, mayor latencia y fluctuación, y un control deficiente de la congestión.

Problema de desequilibrio de carga de ECMP

Los centros de datos Ethernet tradicionales se encargan principalmente de aplicaciones como la navegación web, la transmisión de música y vídeo y las tareas cotidianas de oficina. Estas aplicaciones suelen implicar flujos de datos pequeños y numerosos (denominados "flujos") que se distribuyen de forma aleatoria, lo que los hace muy adecuados para las técnicas de equilibrio de carga por trayectos múltiples basadas en algoritmos hash (ECMP), que garantizan que el ancho de banda de la red se utilice de forma uniforme.

Sin embargo, en el entrenamiento de modelos de IA, los modelos, parámetros, GPU, CPU y NIC están estrechamente acoplados. El tráfico de red consiste principalmente en operaciones colectivas de gran ancho de banda, como all-reduce y all-to-all. Normalmente, cada GPU se empareja con una NIC de gran ancho de banda, y cada NIC establece una cantidad relativamente pequeña de conexiones de flujo durante cada proceso de entrenamiento. Estos flujos son lo suficientemente significativos como para consumir rápidamente todo el ancho de banda de la NIC, lo que se conoce como "flujos elefante".

Debido a la naturaleza de los flujos de elefantes, estos pueden concentrarse en rutas de red específicas debido a algoritmos hash, lo que genera una sobrecarga grave en estas rutas mientras que otras permanecen infrautilizadas. Esta distribución desequilibrada del tráfico hace que los métodos tradicionales de equilibrio de carga basados ​​en ECMP sean ineficaces, lo que afecta la eficiencia general del entrenamiento.

Problemas de alta latencia y fluctuación

Las aplicaciones Ethernet tradicionales se basan en la programación de sockets TCP/IP, donde la CPU debe copiar los datos del usuario desde el espacio del usuario al espacio del núcleo y, luego, desde el espacio del núcleo al controlador de la tarjeta de red para su procesamiento y transmisión al receptor. Este proceso aumenta la latencia y aumenta la carga de trabajo de la CPU. Para abordar estos problemas, los clústeres de computación de IA modernos utilizan redes sin pérdidas que admiten la tecnología de acceso directo a memoria remota (RDMA), como InfiniBand o RDMA sobre Ethernet convergente (RoCE). Estas tecnologías reducen significativamente la latencia de transmisión de datos de la aplicación al omitir el núcleo (omisión del núcleo) y utilizar mecanismos de copia cero.

En los escenarios de entrenamiento de IA, tecnologías como GPU Direct RDMA y GPU Direct Storage permiten el intercambio directo de datos entre la memoria de la GPU o entre la memoria de la GPU y el almacenamiento a través de RDMA. Esto reduce la latencia de transmisión de datos de la memoria de la GPU a una décima parte de la original. Además, la biblioteca de comunicaciones colectivas de NVIDIA (NCCL) admite sin problemas las interfaces RDMA, lo que simplifica enormemente la transición de los marcos TCP a RDMA para aplicaciones de IA.

Al entrenar modelos grandes con cientos de millones de parámetros, a menudo desmontamos los datos y los modelos para procesarlos en paralelo y mejorar la eficiencia. En este proceso, miles de GPU trabajan juntas en configuraciones complejas, multidimensionales, paralelas y de estructura cruzada, intercambiando parámetros continuamente y resumiendo los resultados computacionales. Es fundamental garantizar que cada paso de este proceso de entrenamiento paralelo distribuido sea eficiente y estable. Cualquier falla de una GPU o una mayor latencia en la comunicación de nodo a nodo puede generar un cuello de botella en todo el proceso de entrenamiento. Esta mayor latencia no solo extiende el tiempo de entrenamiento general, sino que también afecta negativamente la mejora de la velocidad (ratio de aceleración del entrenamiento) y los resultados finales. Por lo tanto, el entrenamiento de IA requiere redes con menor latencia y mejor calidad de enlace.

Problemas de control de congestión de red deficiente

En el entrenamiento paralelo distribuido, los picos de tráfico de “incast”, donde múltiples fuentes envían datos a un solo receptor, a menudo causan congestión en la red. El Ethernet tradicional sigue un modelo de servicio de máximo esfuerzo, lo que dificulta evitar el desbordamiento del búfer y la pérdida de paquetes, incluso con una buena calidad de servicio (QoS) de extremo a extremo. Por lo general, los protocolos de capa superior utilizan mecanismos de retransmisión para mitigar los efectos de la pérdida de paquetes. Para Ethernet compatible con RDMA, lograr una pérdida de paquetes cero es crucial.

Para alcanzar este objetivo, se han adoptado ampliamente dos tecnologías clave: mecanismos de control de flujo salto a salto y mecanismos de control de congestión para tráfico “incast”. En las redes RDMA sobre Ethernet convergente (RoCE), estos mecanismos se implementan como Control de flujo prioritario (PFC) y Control de congestión cuantificado del centro de datos (DCQCN), respectivamente.

detalles de la moneda

En los escenarios de entrenamiento de IA, si bien el control de flujo prioritario (PFC) y el control de congestión cuantificado del centro de datos (DCQCN) mitigan la congestión de la red, aún presentan deficiencias significativas. El PFC evita la pérdida de datos al generar contrapresión salto a salto, pero esto puede generar árboles de congestión, bloqueos en la cabecera de la línea y bucles de interbloqueo, lo que en última instancia afecta el rendimiento general de la red. El DCQCN se basa en el marcado ECN y los mensajes CNP para ajustar las velocidades, pero su indicación de congestión no es precisa y los ajustes de velocidad son lentos, incapaces de responder rápidamente a las condiciones dinámicas de la red, lo que limita el rendimiento. Ambos requieren ajustes y monitoreo manuales, lo que aumenta los costos operativos y la complejidad del mantenimiento, y no cumplen con las estrictas demandas de redes de alto rendimiento y baja latencia en el entrenamiento de IA.

Cómo NVIDIA Spectrum-X supera estos problemas

La solución Spectrum-X de NVIDIA se destaca entre varios fabricantes de redes al abordar estas limitaciones tradicionales de Ethernet en el entrenamiento de IA. Según el reciente informe técnico, la principal ventaja de Spectrum-X radica en su tecnología de enrutamiento adaptativo, considerada su característica "principal". Esta tecnología aborda directamente la asignación desigual de ancho de banda causada por los mecanismos de distribución de hash estáticos en Ethernet tradicional.

Al integrar profundamente las capacidades de los conmutadores del lado de la red y las DPU (unidades de procesamiento de datos) del lado de la terminal, Spectrum-X logra un monitoreo dinámico en tiempo real del ancho de banda físico de cada enlace y del estado de congestión de salida del puerto. Con base en este monitoreo, Spectrum-X puede implementar estrategias de distribución de carga dinámicas y finamente ajustadas para cada paquete de red, mejorando significativamente el equilibrio del enlace y la utilización efectiva del ancho de banda del tradicional 50%-60% a más del 97%. Esta mejora elimina directamente los problemas de latencia de cola larga causados ​​por los "flujos de elefantes" (flujos de transmisión de datos a gran escala) en aplicaciones de IA.

rendimiento de enrutamiento adaptativo

Como se ilustra, el ECMP tradicional puede generar tiempos de finalización significativamente prolongados para flujos de datos específicos debido a la utilización desigual del ancho de banda. Por el contrario, el enrutamiento adaptativo garantiza que todos los flujos de datos se distribuyan de manera uniforme en múltiples enlaces, lo que acorta y equilibra significativamente los tiempos de transmisión de cada flujo de datos, lo que reduce el ciclo general de finalización de la tarea de entrenamiento. En particular, en los patrones de comunicación colectiva comunes en los escenarios de entrenamiento de IA, como all-reduce y all-to-all, Spectrum-X muestra importantes ventajas de rendimiento sobre Ethernet tradicional debido a sus capacidades superiores de utilización del ancho de banda del enlace.

Colocación directa de datos (DDP): solución revolucionaria para los problemas de reensamblaje fuera de orden

Si bien las estrategias de equilibrio de carga por paquete mejoran significativamente la eficiencia de utilización del ancho de banda y se han convertido en una solución muy solicitada, el principal desafío que presentan es el reensamblado de paquetes desordenados en el extremo receptor. Este problema ha sido difícil de superar para la industria. Los métodos tradicionales se basan en el procesamiento del lado de la red o en soluciones del lado del terminal, pero ambos están limitados por cuellos de botella en el rendimiento del software y el hardware, lo que genera resultados subóptimos.

Spectrum-X, con su innovadora integración profunda del hardware del lado de la red del conmutador Spectrum-4 y del lado de la terminal BlueField-3, aborda este desafío de manera elegante. A continuación, se incluye una explicación detallada del flujo de procesamiento DDP en un escenario RoCE (RDMA sobre Ethernet convergente):

RoCE (RDMA sobre Ethernet convergente)

En el lado izquierdo, el tráfico de entrenamiento que se origina en diferentes memorias GPU se marca primero de forma especial mediante sus respectivas NIC BlueField-3 de envío. A continuación, estos paquetes marcados se envían a los conmutadores Spectrum-4 Top of Rack (TOR) conectados directamente. Los conmutadores TOR, utilizando sus potentes capacidades de hardware, identifican rápidamente los paquetes marcados con BlueField-3 y, en función del estado del ancho de banda en tiempo real y las condiciones del búfer del enlace ascendente, distribuyen de forma inteligente los paquetes de cada flujo de datos a través de cuatro rutas de enlace ascendente a cuatro conmutadores de la red principal, utilizando algoritmos de enrutamiento dinámico por paquete.

Parte superior del rack (TOR)

A medida que estos paquetes atraviesan sus respectivos conmutadores de red, finalmente llegan al conmutador TOR de destino y se transmiten a la NIC BlueField-3 del servidor de destino. Debido a las diferentes rutas de transmisión y las variaciones de rendimiento del equipo, los paquetes pueden llegar a la NIC BlueField-3 de destino fuera de orden. La NIC BlueField-3 de destino, utilizando su tecnología DDP incorporada, identifica rápidamente los paquetes marcados BlueField-3 y lee directamente las direcciones de memoria de los paquetes, colocando con precisión los paquetes en la memoria de la GPU de destino. Posteriormente, la tecnología DDP integra aún más estos paquetes fuera de orden, asegurando que se combinen en un flujo de datos completo en el orden correcto, eliminando por completo los problemas de desorden causados ​​por diferencias en la ruta de la red y disparidades en el rendimiento del equipo.

campo azul-3

A través de la integración perfecta de las tecnologías de aceleración de hardware DDP y enrutamiento dinámico, Spectrum-X no solo resuelve eficazmente los problemas de asignación de ancho de banda desigual de los mecanismos ECMP (Equal-Cost Multi-Path) de Ethernet tradicionales, sino que también elimina fundamentalmente los fenómenos de latencia de cola larga causados ​​por paquetes fuera de orden. Esto proporciona una solución de transmisión de datos más estable y eficiente para aplicaciones informáticas de alto rendimiento como el entrenamiento de IA.

Aislamiento de rendimiento para múltiples inquilinos con IA

En un ecosistema de nube de IA altamente concurrente, las fluctuaciones en el rendimiento de las aplicaciones y las incertidumbres en el tiempo de ejecución suelen estar estrechamente relacionadas con la congestión a nivel de red. Este fenómeno no solo surge de las fluctuaciones del tráfico de red de la propia aplicación, sino que también puede ser inducido por el tráfico de fondo de otras aplicaciones concurrentes. En concreto, la congestión de “muchos a uno” (varias fuentes de datos que envían datos a un único receptor) se convierte en un importante cuello de botella en el rendimiento, lo que aumenta drásticamente la presión de procesamiento sobre el receptor.

En un entorno de red RoCE con múltiples inquilinos o tareas múltiples, si bien las tecnologías como VXLAN pueden lograr un cierto grado de aislamiento del host, los problemas de congestión del tráfico de los inquilinos y de aislamiento del rendimiento siguen siendo un desafío. Un escenario común es cuando algunas aplicaciones funcionan de manera excelente en un entorno físico sin sistema operativo, pero sufren una caída significativa en el rendimiento una vez que se migran a la nube.

Informe técnico de NVIDIA Spectrum-X

Por ejemplo, supongamos que la carga de trabajo A y la carga de trabajo B se ejecutan simultáneamente en el sistema. Cuando se produce una congestión de la red y se activan los mecanismos de control de congestión, debido a la información limitada que lleva el ECN, el remitente no puede determinar en qué nivel de conmutador se produjo la congestión ni su alcance. Por lo tanto, no puede decidir con qué rapidez aumentar o disminuir la velocidad de envío, y a menudo depende de métodos heurísticos para converger gradualmente. Este tiempo de convergencia es largo y puede causar fácilmente interferencias entre trabajos. Además, los parámetros de control de congestión son numerosos y los conmutadores y las NIC requieren configuraciones de parámetros muy detalladas y complejas. Activar los mecanismos de control de congestión demasiado rápido o demasiado lento puede afectar significativamente el rendimiento empresarial del cliente.

Para abordar estos desafíos, Spectrum-X, con su potente función de control de congestión programable en la plataforma de hardware BlueField-3, presenta una solución avanzada que va más allá del algoritmo DCQCN tradicional. Spectrum-X logra una evaluación precisa de las condiciones de congestión en la ruta de tráfico a través de la estrecha colaboración del hardware BlueField-3 tanto en el extremo del remitente como en el del receptor, utilizando paquetes de sondeo RTT (tiempo de ida y vuelta) e información de telemetría en banda de los conmutadores intermedios. Esta información incluye, entre otras cosas, las marcas de tiempo de los paquetes que pasan por los conmutadores y las tasas de utilización del búfer de salida, lo que proporciona una base sólida para el control de la congestión.

DCQCN

Fundamentalmente, las capacidades de procesamiento de alto rendimiento del hardware BlueField-3 le permiten manejar millones de paquetes de control de congestión (CC) por segundo, logrando un control de congestión refinado basado en diferentes cargas de trabajo. Esto logra de manera efectiva los objetivos de aislamiento de rendimiento. Con este mecanismo, la carga de trabajo A y la carga de trabajo B pueden lograr su rendimiento óptimo esperado sin verse afectadas negativamente por la congestión de otros inquilinos.

En resumen, con su innovadora tecnología de hardware y algoritmos inteligentes de control de congestión, Spectrum-X proporciona una solución de aislamiento de rendimiento eficiente y precisa para entornos de nube de múltiples inquilinos con IA, lo que ayuda a cada inquilino a lograr un rendimiento comparable al de un entorno físico.

Composición del producto Spectrum-X

Conmutador SN5600: El conmutador SN5600 es un conmutador de caja 2U avanzado que integra el chip único Spectrum-4 de 51.2 Tbps, fabricado con el proceso de 4 nm de vanguardia de TSMC y que incorpora la asombrosa cantidad de 100 mil millones de transistores.

Composición del producto Spectrum-X

El conmutador está equipado con 64 puertos OSFP de 800 G y puede soportar de manera flexible la expansión a 128 puertos de 400 G o 256 puertos de 200 G, lo que satisface diversas necesidades de red. Su tasa de reenvío de paquetes alcanza los 33.3 Bpps, con 512 K entradas en la tabla de reenvío y 160 MB de caché compartida global, lo que garantiza el reenvío a velocidad de línea incluso para paquetes de 172 bytes. Además, el SN5600 es totalmente compatible con los principales sistemas operativos como Cumulus y Sonic, y su funcionalidad ha evolucionado continuamente a través de la serie Spectrum desde la generación 1 a la 4, lo que proporciona a los usuarios un rendimiento y una flexibilidad de red mejorados.

BlueField-3 SuperNIC: BlueField-3 SuperNIC es un nuevo acelerador de red basado en la plataforma BlueField-3, diseñado para impulsar cargas de trabajo de IA a gran escala. Desarrollado específicamente para computación paralela a gran escala con uso intensivo de la red, proporciona conectividad RDMA de hasta 400 Gb/s entre servidores GPU a través de Ethernet convergente, lo que optimiza la máxima eficiencia de la carga de trabajo de IA. BlueField-3 SuperNIC marca una nueva era en la computación en la nube de IA, ya que ofrece entornos de centros de datos seguros para múltiples inquilinos y garantiza la coherencia del rendimiento y el aislamiento entre trabajos e inquilinos.

SuperNIC BlueField-3

En particular, su potente marco de desarrollo de software DOCA 2.0 ofrece soluciones de software altamente personalizables, mejorando aún más la eficiencia general del sistema.

Cables LinkX: La serie de cables LinkX se centra en la conectividad de alta velocidad de extremo a extremo de 800G y 400G, utilizando tecnología PAM100 de 4G. Es totalmente compatible con los estándares OSFP y QSFP112 MSA y cubre varias formas de módulos ópticos, desde DAC y ACC hasta multimodo y monomodo, y satisface diversas necesidades de cableado. Estos cables pueden interactuar sin problemas con los puertos OSFP de 5600G del conmutador SN800, lo que permite expansiones de 1 a 2 puertos OSFP de 400G, lo que mejora la flexibilidad y la eficiencia de la conexión de red.

Resumen y estudio de caso

Spectrum-X, la solución de Ethernet para IA líder a nivel mundial y pionera de NVIDIA, integra tecnologías de hardware y software líderes en la industria, con el objetivo de remodelar el ecosistema de potencia informática de IA. Entre sus principales características se incluyen el conmutador de alto rendimiento ASIC Spectrum-4 de desarrollo propio, las NIC inteligentes DPU de la serie BlueField y los cables de módulo óptico LinkX que utilizan tecnología Direct Drive. Estos componentes de hardware juntos construyen una infraestructura robusta.

En términos tecnológicos, Spectrum-X incorpora múltiples características innovadoras, como mecanismos de enrutamiento dinámico, tecnología de corrección de errores en el extremo, algoritmos de control de congestión programables de nueva generación y la plataforma de aceleración de software de IA de pila completa DOCA 2.0. Estas características no solo optimizan el rendimiento y la eficiencia de la red, sino que también mejoran significativamente la capacidad de respuesta y de procesamiento de las aplicaciones de IA, creando una base informática eficiente y confiable para los usuarios en el campo de la IA generativa.

Esta solución altamente integrada tiene como objetivo cerrar la brecha entre Ethernet tradicional e InfiniBand, centrándose en brindar soporte de red personalizado y de alto rendimiento para el mercado de la nube de IA. Satisface las estrictas demandas de las aplicaciones de IA en cuanto a gran ancho de banda, baja latencia y expansión flexible, liderando las tendencias de la tecnología Ethernet hacia la optimización de escenarios específicos de IA y apuntando al desarrollo y expansión de este mercado emergente y prometedor.

Las ventajas técnicas de Spectrum-X se ejemplifican en su caso de aplicación con el proveedor de servicios en la nube francés Scaleway. Scaleway, fundada en 1999, ofrece infraestructura de alto rendimiento y más de 80 productos y servicios en la nube a más de 25,000 clientes globales, incluidos Mistral AI, Aternos, Hugging Face y Golem.ai. Scaleway proporciona servicios en la nube integrales para desarrollar soluciones innovadoras y ayudar a los usuarios a crear y escalar proyectos de IA desde cero.

Actualmente, Scaleway está construyendo una nube de IA regional que ofrece infraestructura de GPU para el entrenamiento, la inferencia y la implementación de modelos de IA a gran escala. La adopción de las GPU Hopper de NVIDIA y la plataforma de red Spectrum-X ha mejorado significativamente la potencia informática de la IA, ha acortado el tiempo de entrenamiento de la IA y ha acelerado el desarrollo, la implementación y el tiempo de comercialización de soluciones de IA, lo que mejora de manera efectiva el retorno de la inversión. Los clientes de Scaleway pueden escalar desde unas pocas GPU hasta miles para satisfacer cualquier caso de uso de IA. Spectrum-X no solo proporciona el rendimiento y la seguridad necesarios para entornos de IA multiinquilino y multitarea, sino que también logra el aislamiento del rendimiento a través de mecanismos como el enrutamiento dinámico, el control de la congestión y los búferes compartidos globales. Además, NetQ proporciona una visibilidad profunda del estado de la red de IA con funciones como contadores de tráfico RoCE, eventos y alertas WJH (What Just Happened), lo que permite la visualización, la resolución de problemas y la validación de la red de IA. Con el apoyo de NVIDIA Air y Cumulus Linux, Scaleway puede integrar entornos de red nativos de API en la cadena de herramientas de DevOps, lo que garantiza transiciones fluidas desde la implementación hasta las operaciones.

Deja un comentario

Ir al Inicio