¿EtherNET o EtherNO?

En julio de 2023, se lanzó oficialmente el Consorcio Ultra Ethernet (UEC), iniciado por la Fundación Linux y su Fundación de Desarrollo Conjunto, que arrojó una carga de profundidad en el turbulento ecosistema de interconexión de redes de IA. En agosto de 2023, en el foro internacional IEEE Hot Interconnects (HOTI), que se centra en arquitecturas avanzadas de hardware y software y varias implementaciones de redes de interconexión, representantes de Intel, Nvidia, AMD y otras empresas participaron en un panel de discusión sobre la cuestión de "EtherNET o EtherNOT", y expresaron sus puntos de vista sobre Ethernet. Las cargas de trabajo emergentes de IA/ML están impulsando la demanda de interconexión de redes de alto rendimiento. Hace unos diez años, RDMA sobre Ethernet convergente (RoCE) introdujo la transmisión de datos de baja latencia en la arquitectura Ethernet, pero en comparación con otras tecnologías de red, Ethernet parecía quedarse atrás en el desarrollo tecnológico. ¿Se avecina la batalla entre EtherNET y EtherNOT? En la era de Ethernet, los proveedores de la nube, los proveedores de equipos y otras partes interesadas tienen sus propios intereses, y es un período crítico de toma de decisiones. ¿Cómo elegirán?

Este tema de “EtherNET o EtherNOT” ya se discutió en la conferencia HOTI en 2005, y la conclusión en ese momento fue la siguiente:

EtherNET o EtherNOT

En el debate de la conferencia HOTI de 2023, Brad Burres, investigador senior y arquitecto jefe de hardware del Network and Edge Group de Intel, y Frank Helms, arquitecto de sistemas GPU de centros de datos de AMD, favorecieron a Ethernet. Brad Burres argumentó que no importa qué tecnología se adopte, se necesita un ecosistema abierto para reducir el costo de toda la industria y lograr la infraestructura de software requerida. A medida que el protocolo madure, Ethernet será el ganador a menos que surja inmediatamente otra estructura estándar abierta (como CXL). Frank Helms enumeró el primer, segundo y quinto lugar en la lista global de supercomputadoras TOP500, Frontier, Aurora y LUMI, respectivamente, todos los cuales se basan en la estructura de red HPE Cray Slingshot-11 basada en Ethernet para la conexión. Creía que Ethernet está a la vanguardia de la tecnología de interconexión. El surgimiento de UEC (Ultra Ethernet Alliance) también refleja que existe una gran demanda reprimida de Ethernet para la interconexión de clústeres de entrenamiento de IA a gran escala. Larry Dennison, director de investigación de redes de NVIDIA, cree que todavía existe una brecha entre Ethernet y satisfacer las necesidades de las cargas de trabajo de IA. Si Ethernet satisface todas estas necesidades, ¿sigue siendo Ethernet? ¿En cuánto tiempo se puede lograr? El mercado de Ethernet es realmente enorme y no desaparecerá, pero en los próximos años la velocidad de desarrollo de Ethernet no podrá satisfacer las necesidades de este mercado. Torsten Hoefler, profesor de ETH Zurich y consultor de Microsoft en el campo de redes e inteligencia artificial a gran escala, señaló que Ethernet es el presente y el futuro de los centros de datos y supercomputadoras, pero no el Ethernet del que estamos hablando ahora, sino que Ethernet necesita evolucionar.

Ecología abierta or ¿Dependencia de un proveedor?

Históricamente, InfiniBand y Ethernet han estado compitiendo por el dominio del mercado de IA/HPC, ya que ambos son estándares abiertos. Sin embargo, una diferencia clave es que InfiniBand actualmente cuenta con el respaldo de Nvidia como proveedor único, mientras que Ethernet disfruta del soporte de múltiples proveedores, lo que fomenta un ecosistema vibrante y competitivo. Sin embargo, incluso en el campo de las soluciones de red AI/HPC, las soluciones Ethernet pueden venir con una etiqueta "parcialmente personalizada", lo que puede llevar a la dependencia del proveedor.

Por ejemplo, el conmutador Ethernet Jericho3 de Broadcom requiere que toda la estructura de la red utilice el mismo chip de conmutación cuando se ejecuta en su modo de “estructura totalmente programada” de alto rendimiento. El conmutador Silicon One de Cisco y el conmutador Spectrum-X de Nvidia también tienen situaciones similares: los requisitos de alto rendimiento pueden causar dependencia del proveedor. Algunas empresas de hiperescala han diseñado NIC “personalizadas”, que también pueden dar lugar a redes personalizadas. Por lo tanto, incluso al elegir soluciones Ethernet, uno puede encontrar implementaciones personalizadas y dependencia de proveedores. Las redes AI/HPC pueden pasar a un estándar de transporte nuevo, abierto y más potente, que reemplace parcial o totalmente el protocolo ROCEv2 RDMA, que es la visión que persigue Beyond Ethernet Alliance.

Inventario de tecnología de redes AI/ML

¿Cómo eligen los proveedores de hiperescala sus tecnologías de red AI/ML? ¿Es EtherNET o EtherNOT?

Amazon AWS

Amazon se inspiró en el protocolo InfiniBand RD y lanzó el protocolo de transporte Scalable Reliable Datagram (SRD) para redes HPC. Amazon utiliza “exclusivamente” adaptadores de red mejorados (ENA), que se basan en su chip Nitro patentado. SRD utiliza UDP, admite la distribución de paquetes a través de múltiples enlaces y elimina el requisito de entrega de paquetes "en orden", lo que reduce la congestión del tejido y la latencia de cola. Cuando es necesario, la reordenación de paquetes la maneja la capa superior de SRD. Amazon continúa aplicando una estrategia de red nativa de IA/HPC y probablemente sea el que menos coopera con NVIDIA.

Google

Google utiliza una combinación de sus TPU y GPU de NVIDIA. Las TPU y las GPU compiten entre sí y pueden implementarse según la idoneidad de la carga de trabajo. Es poco probable que Google utilice productos InfiniBand en su red. La red AI/ML de Google está relativamente personalizada y ha estado implementando una arquitectura "coherente" NVLink similar durante años. Google ha innovado mucho en la pila de red y ha implementado sistemas de conmutación óptica (OCS) “nativos”, un interruptor de circuito basado en sistemas microelectromecánicos (espejos MEM), en sus centros de datos habituales y centros de datos de inteligencia artificial. Los conmutadores ópticos suelen eliminar una capa de conmutadores físicos, admiten configuraciones de base más altas y reducen el consumo de energía y la latencia. Los interruptores ópticos "reflejan" la luz y son independientes de los protocolos de red y las actualizaciones de los interruptores de red. La desventaja es que el tiempo de reconfiguración del espejo suele ser largo, del orden de decenas de milisegundos, por lo que estos conmutadores OCS funcionan como un “circuito” de capacidad fija. Para las redes de entrenamiento de inteligencia artificial, esto no es un problema importante, ya que los patrones de tráfico son predecibles.

Microsoft

Microsoft es la más pragmática entre las empresas de hiperescala y adoptó InfiniBand desde el principio para construir redes de inteligencia artificial para su socio OpenAI. Aunque Microsoft desarrolló su adaptador de red personalizado y utilizó un protocolo RDMA personalizado para la nube de Azure, su apertura a InfiniBand, la adopción de la solución AI/ML de pila completa de NVIDIA y su estrecha colaboración con OpenAI lo convierten en el cliente preferido de NVIDIA. Microsoft adquirió Fungible, que inventó True Fabric, un protocolo de datagrama confiable basado en UDP que maneja el tráfico, la congestión y el control de errores, y optimiza la latencia de cola. Algunas de las innovaciones tecnológicas de Fungible pueden aparecer en los productos futuros de Microsoft y en las contribuciones de código abierto.

Meta

Meta es un caballo oscuro en la competencia de IA, con su programa de inteligencia artificial que tiene las siguientes características sobresalientes:

  • Adopta un enfoque de código abierto utilizando modelos fundamentales como Llama.
  • Hace que la IA sea fácil de usar y accesible para todos los ingenieros de software a través del marco/ecosistema de software PyTorch.
  • Establece la comunidad Open Compute Project como un pilar clave de la innovación de hardware abierto.
  • Implementa clústeres de GPU a gran escala y se mantiene a la vanguardia de la innovación en IA con su sistema de recomendación (modelo DLRM).

Los modelos fundamentales de IA de Meta y el ecosistema PyTorch permiten una enorme biblioteca de innovación de IA de código abierto, implementan clústeres de IA/ML basados ​​en Ethernet e InfiniBand y construyen ASIC para su modelo DLRM y transcodificación de video.

Meta está democratizando la IA y, aunque todavía no ha recibido suficiente reconocimiento, esta tendencia pronto cambiará.

Oracle

Oracle admite firmemente Ethernet y no utiliza InfiniBand. Oracle Cloud Infrastructure (OCI) aprovecha las GPU de Nvidia y las NIC de ConnectX para crear un superclúster basado en ROCEv2 RDMA. OCI construye una red RDMA separada, basada en un protocolo de notificación de congestión personalizado de DC-QCN, minimiza el uso de PFC y ajusta perfiles personalizados para cargas de trabajo de IA y HPC.

NVIDIA

Las GPU de NVIDIA y sus soluciones AI/ML de pila completa la convierten en un actor indiscutible en el mercado. La solución NVIDIA DGX Cloud integra el conmutador InfiniBand Quantum-2 (25.6 Tbs) con adaptadores de red ConnectX y Bluefield. Estos adaptadores de red admiten tanto Ethernet como InfiniBand. NVIDIA y sus OEM también venderán la solución InfiniBand de pila completa basada en DGX Cloud a los mercados empresarial y de telecomunicaciones. Sin embargo, NVIDIA también está invirtiendo mucho en Ethernet a través de su conmutador Spectrum-X. Hace unos años, InfiniBand era la arquitectura preferida para el entrenamiento de IA, lo que la convertía en la opción ideal para la solución de nube DGX integrada de NVIDIA. Con el lanzamiento del conmutador Ethernet NVIDIA Spectrum-X (capacidad de 51.2 Tbs, el doble de la capacidad del conmutador InfiniBand), NVIDIA cambiará a Ethernet para la implementación de GPU a gran escala, para aprovechar la mayor velocidad del puerto de Ethernet, su rentabilidad y y escalabilidad. El conmutador Ethernet Spectrum-X admite extensiones ROCEv2 avanzadas: enrutamiento adaptativo RoCE y control de congestión, soporte de telemetría y computación en red llamada colectiva (a través del producto SHARP de NVIDIA).

Broadcom

Broadcom ofrece soluciones integrales de red de IA/HPC, incluidos chips de conmutación y adaptadores de red. La adquisición estratégica de “Correct Networks” por parte de Broadcom introdujo un protocolo de transporte basado en EQDS UDP, que traslada todas las actividades de cola desde la red central al host transmisor o conmutador de hoja. Este enfoque admite la optimización de conmutadores en la combinación de chips Jericho3/Ramon3, que es una “estructura completamente programada” equipada con pulverización de paquetes, búferes de reordenamiento en conmutadores de hoja, reequilibrio de rutas, eliminación de notificaciones de congestión y mecanismos de recuperación de fallas en banda controlados por hardware. La serie Tomahawk (52 Tbs) está diseñada para optimizar la capacidad de un solo chip y no es una estructura completamente programada. Los conmutadores Tomahawk también admiten colas de borde, así como funciones críticas de latencia en hardware, como el equilibrio de carga a nivel de estructura global y el reequilibrio de rutas. Tomahawk no admite la clasificación de paquetes en conmutadores de hoja, por lo que los búferes de reordenamiento de paquetes deben implementarse en adaptadores de red (puntos finales).

Cisco

Cisco lanzó recientemente el conmutador Silicon One de 52 Tb/s, lo que demuestra la versatilidad de sus soluciones de red. El conmutador es programable P4, lo que permite una programación flexible para diversos casos de uso de red. Los conmutadores basados ​​en Silicon One de Cisco brindan soporte para estructuras completamente programadas, equilibrio de carga, aislamiento de fallas de hardware y telemetría. Cisco se asocia con múltiples proveedores de NIC para brindar soluciones completas de red AI/ML.

Conclusión

El viaje hacia la estandarización de Ethernet para redes AI/HPC acaba de comenzar y requiere una mayor reducción de costos y energía a través de la escala, la innovación abierta y la competencia de múltiples proveedores. La Super Ethernet Alliance está compuesta por las principales partes interesadas de la red y está comprometida a crear una solución Ethernet abierta "full-stack" adaptada a las cargas de trabajo de AI/HPC. Como se mencionó anteriormente, la mayoría de las tecnologías de red AI/HPC "necesarias" han sido implementadas por varios proveedores de Ethernet e hiperescaladores de alguna forma. Por lo tanto, el desafío de la estandarización no es técnico, sino más bien de generar consenso.

Deja un comentario

Ir al Inicio