Liberando el rendimiento: el poder de InfiniBand

La potencia computacional efectiva de un clúster se puede dividir en utilización de GPU y aceleración lineal del clúster. La utilización de la GPU está influenciada por factores como la arquitectura del chip, la tecnología de proceso, la memoria, los cuellos de botella de E/S, el ancho de banda de interconexión entre tarjetas, la topología y el consumo de energía. Por otro lado, la "aceleración lineal del clúster" depende de las capacidades de comunicación de los nodos, los marcos de capacitación paralelos y la programación de recursos.

CPU

Diseñar una solución de red de clúster eficiente es crucial para lograr una baja latencia, un gran ancho de banda y una comunicación entre nodos desbloqueada. Esto reduce la sobrecarga de comunicación entre varias máquinas y GPU y, en última instancia, mejora el tiempo de cálculo efectivo de la GPU (tiempo de cálculo de la GPU/tiempo de entrenamiento general). Según el 'Libro blanco sobre la evolución de la red para modelos grandes de IA' del Instituto de Investigación Móvil de China, los modelos grandes de IA plantean nuevos requisitos para la infraestructura de red:

  1. Redes a ultra gran escala: los modelos de IA de gran tamaño con recuentos de parámetros que alcanzan entre miles de millones y billones exigen una potencia computacional extremadamente alta. En consecuencia, esto requiere una gran cantidad de hardware y capacidad de red escalable. Según el 'Libro blanco sobre nuevas tecnologías de computación inteligente para clústeres de ultra-mil tarjetas', lograr una eficiencia computacional óptima, capacidades de procesamiento de datos, interconexión a nivel de hardware para miles de tarjetas y disponibilidad de la red se convierte en un tema crítico para los centros de computación de IA.
parte superior
  • Requisitos de ancho de banda ultraalto: en clústeres de múltiples GPU, la comunicación tanto dentro como entre servidores es inevitable. La comunicación dentro del servidor implica que todos reduzcan los datos de comunicación colectiva generados por el paralelismo del modelo, alcanzando cientos de gigabytes. Por lo tanto, el ancho de banda y el método de comunicación dentro de la GPU tienen un impacto significativo en el tiempo de finalización del flujo de un extremo a otro. La comunicación entre servidores, en modos como el paralelismo de canalización, el paralelismo de datos y el paralelismo tensorial, también alcanza volúmenes de datos similares. Los patrones complejos de comunicación colectiva implican simultáneamente comunicación de muchos a uno y de uno a muchos. Por lo tanto, las interconexiones de alta velocidad entre GPU son esenciales para el ancho de banda de un solo puerto, los enlaces entre nodos disponibles y el ancho de banda general de la red.
  • Latencia ultrabaja: la latencia de comunicación de datos consta de componentes estáticos y dinámicos. La latencia estática depende de las capacidades del chip de reenvío y de la distancia de transmisión. Cuando la topología de la red y el volumen de datos de comunicación son fijos, esta parte de la latencia permanece relativamente constante. La latencia dinámica incluye el retraso en la cola interna del conmutador y el retraso en la retransmisión de pérdida de paquetes, generalmente causados ​​por la congestión de la red, la pérdida de paquetes y la fluctuación.
  • Estabilidad ultraalta e implementación automatizada: con un aumento significativo en la cantidad de tarjetas, la estabilidad de la red se convierte en el "eslabón más débil" en las redes de clúster. Las fallas de la red y las fluctuaciones del rendimiento afectan tanto la conectividad entre nodos como la utilización de los recursos.

RDMA (Acceso remoto directo a memoria) puede reducir la latencia de comunicación de un extremo a otro entre varias máquinas y GPU. En las redes tradicionales, la transferencia de datos implica varios pasos: primero, copiar los datos del núcleo del sistema fuente a la pila de la red y luego transmitirlos a través de la red. Finalmente, en el extremo receptor, varios pasos copian los datos nuevamente al kernel del sistema de destino. RDMA omite el kernel del sistema operativo, lo que permite que un host acceda directamente a la memoria de otro host. Actualmente, las principales tecnologías RDMA son InfiniBand y RoCEv2 (RDMA sobre Ethernet convergente).

tradicional y rdma

InfiniBand (IB) y RDMA over Converged Ethernet (RoCE) son dos tecnologías de red destacadas. IB se destaca por su baja latencia y gran ancho de banda, mientras que Ethernet ofrece apertura y rentabilidad. RoCE, que está ampliamente adoptado y es maduro, sirve como piedra angular para interconectar diferentes sistemas con buena compatibilidad. También se beneficia de múltiples proveedores, lo que genera ventajas en cuanto a costos.

Por el contrario, IB está especializado en interconexiones de red confiables, de baja latencia y de gran ancho de banda, comúnmente utilizadas en clústeres de HPC. Sin embargo, debido al soporte limitado de los proveedores, su costo de implementación es mayor que el de RoCE.

RoCE es una opción sólida, mientras que InfiniBand se destaca como una solución excepcional. En particular, en los clusters de supercomputación, IB sigue siendo una interconexión popular y eficiente. Sin embargo, considerando el costo y la apertura, muchas empresas de computación en la nube optan por conmutadores Ethernet de código abierto en lugar de soluciones IB patentadas. Según Brian Barrett, ingeniero senior de AWS, las redes IB dedicadas pueden ser como islas aisladas en el vasto océano de asignación e intercambio flexible de recursos dentro de los centros de datos en la nube.

top500

Además, el Consorcio Ultra Ethernet (UEC) se estableció el 19 de julio de 2023, bajo el liderazgo de la Fundación Linux. UEC, que comprende proveedores de nube (como MATA y Microsoft), fabricantes de equipos de red (incluidos Broadcom, Cisco y HP) y empresas de semiconductores (AMD e Intel), tiene como objetivo proporcionar una pila de comunicaciones abierta, interoperable y de alto rendimiento basada en Ethernet. . Esta iniciativa respalda las crecientes demandas de red de IA y HPC.

InfiniBand, con su adopción temprana de RDMA, ofrece ventajas nativas como baja latencia, alto ancho de banda y confiabilidad. En 2015, la participación de InfiniBand en la lista TOP500 de supercomputadoras superó el 50%, lo que la convirtió en la tecnología de conexión interna preferida para supercomputadoras.

Actualmente, el principal proveedor de la arquitectura InfiniBand (IB) es Mellanox de Nvidia. La Asociación Comercial InfiniBand (IBTA) fue establecida inicialmente por empresas líderes como Intel, Microsoft, SUN, IBM, Compaq y HP. En mayo de 1999, Mellanox fue fundada en Israel por ex empleados de Intel y Galileo Technology. En 2001, lanzaron su primer producto IB. Sin embargo, en 2002, Intel y Microsoft, los gigantes originales del campo del IB, se retiraron.

En 2010, Mellanox se fusionó con Voltaire, dejando a Mellanox y QLogic como principales proveedores de IB. En 2012, Intel volvió a entrar en el campo de los IB al adquirir el negocio de redes IB de QLogic por 125 millones de dólares. Poco después, Intel también compró a Cray el negocio de interconexión de supercomputación “Gemini” XT y “Aries” XC por 140 millones de dólares. Posteriormente desarrollaron la nueva tecnología de interconexión Omni-Path basada en IB y Aries.

En 2013, Mellanox continuó expandiéndose al adquirir Kotura, una empresa de tecnología fotónica de silicio, e IPtronics, un fabricante de chips de interconexión óptica paralelos. En 2015, Mellanox tenía una participación de mercado del 80% en el mercado global de InfiniBand. En 2019, Nvidia adquirió con éxito Mellanox, superando a sus competidores Intel y Microsoft con un acuerdo de 6.9 millones de dólares.

Ahora, echemos un vistazo al producto GB200 de última generación de Nvidia:

  1. Configuración interna de un rack:

Cada bastidor contiene 18 bandejas Compute (10 en la parte superior, 8 en la parte inferior) y 9 bandejas Switch.

Los cartuchos de cable de cobre conectan las bandejas de cómputo y las bandejas de conmutador dentro del bastidor.

Utilizando un sistema de refrigeración líquida, el GB200 logra 25 veces el rendimiento en comparación con la infraestructura refrigerada por aire del H100 con el mismo consumo de energía.

Componentes de la bandeja de cálculo:

Cada bandeja Compute individual incluye:

2 superchips GB200 Grace Blackwell

4 supernics ConnectX-800G InfiniBand

1 Unidad de Procesamiento de Datos (DPU) BlueField-3.

GB200

Superchip GB200 Grace Blackwell:

El superchip GB200 Grace Blackwell consta de dos GPU Blackwell y una CPU Grace.

Cada GPU Blackwell individual tiene el doble de tamaño que la arquitectura de GPU Hopper anterior.

Sin embargo, su rendimiento de IA (FP4) es cinco veces mayor que el de Hopper.

Específicamente, una sola GPU Blackwell logra aproximadamente 20 petaFLOPS de rendimiento de IA (FP8).

Cuenta con 8 memorias HBM24e de 3 GB con un impresionante ancho de banda de memoria de 8 TB/s.

El GB200 tiene 18 puertos NVLink, que se conectan a 18 chips de conmutador NVLink, logrando una comunicación bidireccional a 1.8 TB/s.

ConnectX-800G InfiniBand Supernic:

ConnectX-800G InfiniBand Supernic permite conexiones de red de 800 Gb/s de extremo a extremo y aislamiento de rendimiento.

Está diseñado específicamente para la gestión eficiente de nubes de IA multiinquilino.

Aprovechando PCIe 6.0, proporciona un rendimiento de datos de 800 Gb/s.

ConnectX-8 Supernic admite conectores OSFP 224 de puerto único y QSFP112 de puerto dual.

Además, facilita NVIDIA Socket Direct con expansión de tarjeta auxiliar de 16 canales.

DPU Bluefield-3:

La DPU Bluefield-3 se conecta a través de redes Ethernet de 400 Gb/s o InfiniBand NDR de 400 Gb/s.

Descarga, acelera y aísla las funciones de red, almacenamiento, seguridad y gestión definidas por software.

Como resultado, mejora significativamente el rendimiento, la eficiencia y la seguridad del centro de datos.

bandeja de computadora

Cada bandeja de conmutador contiene dos chips de conmutador NVLink.

Cada chip de conmutación individual admite cuatro interfaces, y una sola interfaz logra una velocidad de transferencia de 1.8 TB/s.

Una bandeja de conmutador proporciona un total de 144 puertos NVLink (100 GB), lo que da como resultado un ancho de banda total de 14.4 TB/s.

Con nueve bandejas Switch, puede conectar completamente 72 GPU Blackwell, cada una con 18 puertos NVLink (un total de 1296 puertos NVLink).

Bandeja de interruptor

Para conexiones internas del gabinete:

Las bandejas de cómputo y las bandejas de conmutación están conectadas a través de NVLink de quinta generación.

El ancho de banda bidireccional de NVLink de quinta generación es de 1.8 TB/s, el doble que el de la generación anterior y más de 14 veces el ancho de banda PCIe Gen5.

Esta comunicación de GPU a GPU de 1.8 TB/s permite la expansión de la GPU en IA y computación de alto rendimiento.

Dentro de la bandeja Compute, las GPU y CPU internas de Superchip están conectadas a través de comunicación NVLink Chip-to-Chip (ancho de banda bidireccional de 900 GB/s).

enlace nv

Conexiones dentro del gabinete (dentro de un solo bastidor):

Para configuraciones con hasta 72 GPU, la solución recomendada dentro de un solo rack es utilizar cables de cobre (NVLink). La densidad de chip mejorada y la eficiente refrigeración líquida del GB200 permiten implementar más GPU en un espacio más pequeño, lo que convierte a los cables de cobre en una opción rentable para conexiones dentro del gabinete. Sin embargo, las pérdidas de transmisión a larga distancia siguen siendo una preocupación para futuras iteraciones.

Cuando el número de GPU supera las 72, una red de una sola capa es insuficiente. Es necesaria la actualización a una estructura de red de capa superior. Hay dos opciones disponibles: red NVLink única e InfiniBand (IB).

Configuración NVLink única:

Al conectar más de 72 pero menos de 576 GPU, considere utilizar una arquitectura de clúster totalmente NVLink. La relación GPU-módulo óptico es 1:9.

Para escalabilidad más allá de un solo bastidor, un enfoque recomendado es la configuración NVL72 de doble bastidor. Cada bastidor contiene 18 bandejas de computación y 9 bandejas de conmutadores. En particular, en la versión de doble rack, cada Compute Tray cuenta con solo un Grace Blackwell Superchip (2 GPU Blackwell + 1 CPU Grace). El contenido de la bandeja de conmutadores sigue siendo el mismo en las versiones de uno y dos bastidores.

Con 36 GPU Blackwell completamente conectadas a 18 chips NVSwitch (con un total de 648 puertos), un clúster de 576 GPU abarca 16 gabinetes de doble fila. Esto da como resultado un requisito acumulativo de 10,368 puertos, con una velocidad unidireccional de 50 GB/s (bidireccional 100 GB/s). Suponiendo que las capas de red L1 a L2 utilizan módulos ópticos de 1.6 T (200 GB/s), necesitamos 5,184 módulos ópticos de 1.6 T. La relación GPU-módulo óptico es 1:9.

Configuración de InfiniBand (IB):

Cuando el número de GPU deseado supera las 72, considere la posibilidad de establecer redes IB. Al utilizar el último conmutador NVIDIA Quantum-X800 Q3400, la cantidad de puertos determina la capacidad máxima de GPU para diferentes capas de red.

Comparado con NVIDIA Quantum-2 QM9700 Con solo 64 puertos 400G, el Quantum-X800 Q3400 ofrece 144 puertos 800G, lo que permite un máximo de (144^2)/2 = 10,368 XNUMX GPU interconectadas.

Según las predicciones de SemiAnalysis, la relación de módulo óptico GPU a 1.6T es de aproximadamente 2.5 para una red de 2 capas y alrededor de 3.5 para una red de 3 capas.

Deja un comentario

Ir al Inicio