Clúster A100/H100/GH200: arquitectura de red y requisitos del módulo óptico

Los centros de datos tradicionales han experimentado una transición de una arquitectura de tres niveles a una arquitectura de hoja, principalmente para adaptarse al crecimiento del tráfico de este a oeste dentro del centro de datos. A medida que el proceso de migración de datos a la nube continúa acelerándose, la escala de los centros de datos de computación en la nube continúa expandiéndose. Las aplicaciones como la virtualización y los sistemas hiperconvergentes adoptadas en estos centros de datos han impulsado un aumento significativo en el tráfico de este a oeste; según datos anteriores de Cisco, en 2021, el tráfico interno del centro de datos representó más del 70% del tráfico relacionado con el centro de datos. .

Tomando como ejemplo la transición de la arquitectura tradicional de tres niveles a la arquitectura de hoja-espina, la cantidad de módulos ópticos necesarios en una arquitectura de red de hoja-espina puede aumentar hasta decenas de veces.

documento-blanco-c11-737022_1

Requisitos de arquitectura de red para clústeres de IA a gran escala

Teniendo en cuenta la necesidad de aliviar los cuellos de botella de la red, la arquitectura de red para clústeres de IA a gran escala debe cumplir con los requisitos de alto ancho de banda, baja latencia y transmisión sin pérdidas. Los centros de computación de IA generalmente adoptan una arquitectura de red Fat-Tree, que presenta una red sin bloqueos. Además, para evitar cuellos de botella en la interconexión entre nodos, NVIDIA emplea NVLink para permitir una comunicación eficiente entre GPU. En comparación con PCIe, NVLink ofrece mayores ventajas de ancho de banda, lo que sirve como base para la arquitectura de memoria compartida de NVIDIA y crea una nueva demanda de interconexiones ópticas entre GPU.

Requisitos de estructura de red y módulo óptico del A100

La estructura de implementación básica para cada DGX A100 SuperPOD consta de 140 servidores (cada servidor con 8 GPU) y conmutadores (cada conmutador con 40 puertos, cada puerto a 200G). La topología de la red es una estructura Fat-Tree de InfiniBand (IB). Con respecto al número de capas de red, se implementa una estructura de red de tres capas (conmutador de hoja de servidor-conmutador central-conmutador central) para 140 servidores, siendo el número correspondiente de cables para cada capa 1120-1124-1120, respectivamente. Suponiendo que se utilizan cables de cobre entre servidores y conmutadores, y basándose en un cable correspondiente a dos módulos ópticos de 200G, la relación GPU:conmutador:módulo óptico es 1:0.15:4. Si se utiliza una red totalmente óptica, la relación se convierte en GPU:conmutador:módulo óptico = 1:0.15:6.

desarrollador_c087f74
5ZCez_5CQB3B

Requisitos de estructura de red y módulo óptico del H100

La estructura de implementación básica para cada DGX H100 SuperPOD consta de 32 servidores (cada servidor con 8 GPU) y 12 conmutadores. La topología de la red es una estructura IB Fat-Tree, en la que cada puerto del conmutador funciona a 400G y se puede combinar en un puerto de 800G. Para un clúster 4SU, suponiendo una red totalmente óptica y una arquitectura Fat-Tree de tres capas, Módulos ópticos 400G se utilizan entre servidores y conmutadores de hoja, mientras que los módulos ópticos de 800G se utilizan entre conmutadores de hoja y de núcleo. La cantidad de módulos ópticos de 400G necesarios es 3284=256 y la cantidad de módulos ópticos de 800G es 3282.5=640. Por lo tanto, la relación GPU:conmutador:módulo óptico de 400G:módulo óptico de 800G es 1:0.08:1:2.5.

rzcF8_94mA6j

Para un único clúster GH200, que consta de 256 GPU de superchip interconectadas que utilizan una estructura de red de árbol grueso de dos niveles, ambos niveles están construidos con conmutadores NVLink. El primer nivel (entre servidores y conmutadores de nivel 1) utiliza 96 conmutadores, mientras que el nivel 2 emplea 36 conmutadores. Cada conmutador NVLink tiene 32 puertos y cada puerto tiene una velocidad de 800G. Dado que el ancho de banda agregado bidireccional de NVLink 4.0 es de 900 GB/s y el unidireccional es de 450 GB/s, el ancho de banda de enlace ascendente total para la capa de acceso en un clúster de 256 tarjetas es de 115,200 800 GB/s. Teniendo en cuenta la arquitectura de árbol grueso y la velocidad de transmisión del módulo óptico de 100G (800 GB/s), el requisito total para módulos ópticos de 2,304G es de 200 unidades. Por lo tanto, dentro del clúster GH1, la proporción de GPU y módulos ópticos es de 9:200. Al interconectar múltiples clústeres GH100, haciendo referencia a la arquitectura H800, bajo una estructura de red de tres niveles, la demanda de GPU para módulos ópticos de 1G es de 2.5:1; en una red de dos niveles, es 1.5:200. Por lo tanto, al interconectar varios GH800, el límite superior para la relación de GPU a módulo óptico de 1G es 9:(2.5+1) = 11.5:XNUMX.

nvidia-grace-hopper-gh200-nvlink-fabric
Sistema de superchip NVIDIA GH

En resumen, a medida que los clusters computacionales continúan mejorando el rendimiento de la red, la demanda de módulos ópticos de alta velocidad se vuelve más elástica. Tomando como ejemplo los clústeres de NVIDIA, la velocidad de interfaz de la tarjeta de red adaptada por la tarjeta aceleradora está estrechamente relacionada con el ancho de banda de su protocolo de red. La GPU A100 admite PCIe 4.0, con un ancho de banda unidireccional máximo de 252 Gb/s, por lo que la velocidad de la tarjeta de red PCIe debe ser inferior a 252 Gb/s, emparejándose con tarjetas de red Mellanox HDR 200 Gb/s Infiniband. La GPU H100 admite PCIe 5.0, con un ancho de banda unidireccional máximo de 504 Gb/s, por lo que se combina con tarjetas de red Mellanox NDR 400 Gb/s Infiniband. Por lo tanto, al actualizar de A100 a H100, la demanda del módulo óptico correspondiente aumenta de 200G a 800G (dos puertos de 400G combinados en uno de 800G); mientras que el GH200 utiliza NVLink para la conectividad entre tarjetas, con un ancho de banda unidireccional aumentado a 450 GB/s, lo que aumenta aún más la elasticidad para la demanda de 800 G. Supongamos que el clúster H100 se actualiza de PCIe 5.0 a PCIe 6.0, con el ancho de banda unidireccional máximo aumentado a 1024 Gb/s. En ese caso, la velocidad de la tarjeta de red de la capa de acceso se puede aumentar a 800G, lo que significa que la capa de acceso puede usar módulos ópticos de 800G, y la elasticidad de la demanda para una sola tarjeta correspondiente a los módulos ópticos de 800G en el clúster se duplicaría.

La arquitectura y la aplicación del clúster computacional de Meta lanzaron previamente el proyecto "Research SuperCluster" para entrenar el modelo LLaMA. En la segunda fase del proyecto RSC, Meta implementó un total de 2,000 servidores A100, que contienen 16,000 GPU A100. El clúster incluye 2,000 conmutadores y 48,000 enlaces, correspondientes a una arquitectura de red CLOS de tres niveles. Si se adopta una red óptica completa, corresponde a 96,000 módulos ópticos de 200G, lo que significa que la proporción de GPU A100 a módulos ópticos es 1:6, consistente con la arquitectura A100 calculada previamente.

Topología-escala-de-escala-32k-de-meta-red

Meta ha implementado una infraestructura de capacitación para LLaMA3 utilizando GPU H100, que incluye clusters con InfiniBand y Ethernet, capaces de soportar hasta 32,000 GPU. Para la solución Ethernet, según la información revelada por Meta, el clúster informático todavía emplea una arquitectura de red de hoja-espina convergente. Cada bastidor contiene 2 servidores conectados a 1 conmutador de parte superior del bastidor (TOR) (utilizando Wedge 400), con un total de 252 servidores en un clúster. Los conmutadores de clúster utilizan conmutadores de bastidor OCP Minipack2, con 18 conmutadores de clúster en total, lo que da como resultado una relación de convergencia de 3.5:1. Hay 18 conmutadores de capa de agregación (que utilizan Arista 7800R3), con una relación de convergencia de 7:1. El clúster utiliza principalmente módulos ópticos de 400G. Desde la perspectiva de la arquitectura del clúster, la solución Ethernet aún requiere más avances a nivel de protocolo para promover la construcción de una red sin bloqueo, con atención al progreso de organizaciones como Ethernet Alliance.

AWS ha lanzado la segunda generación de EC2 Ultra Clusters, que incluyen la GPU H100 y su solución patentada Trainium ASIC. Las instancias AWS EC2 Ultra Clusters P5 (es decir, la solución H100) proporcionan un ancho de banda de red agregado de 3200 Gbps y admiten GPUDirect RDMA, con una capacidad de red máxima de 20,000 1 GPU. Las instancias Trn16n (solución patentada de Trainium) cuentan con un clúster de 1600 tarjetas que proporciona 30,000 Gbps de ancho de banda de red agregado y admite hasta 6 XNUMX ASIC en red, lo que corresponde a XNUMX EFlops de potencia informática.

diagrama-de-bloques-ultrascluster-aws-ec2
imagen-2

La interconexión entre las tarjetas AWS EC2 Ultra Clusters utiliza NVLink (para la solución H100) y NeuronLink (para la solución Trainium), con la interconexión del clúster utilizando su adaptador de red patentado EFA. En comparación con la solución de Nvidia, el clúster Trainium ASIC patentado de AWS tiene un ancho de banda de enlace ascendente estimado de 100 G por tarjeta (ancho de banda agregado de 1600 G / 16 tarjetas = 100 G), por lo que actualmente no hay demanda de 800G módulos ópticos en la arquitectura de AWS.

El último grupo informático de Google está compuesto por matrices de TPU configuradas en un toro tridimensional. Un toro unidimensional corresponde a cada TPU conectado a dos TPU adyacentes, un toro bidimensional consta de dos anillos ortogonales, correspondientes a cada TPU conectado a cuatro TPU adyacentes; El TPUv4 de Google representa un toro tridimensional, con cada TPU conectado a seis TPU adyacentes.

Supercomputadora-de-aprendizaje-automático-de-Google-con-una-interconexión-ópticamente-reconfigurable-_página_11-746x420
Transceptor óptico bidireccional CWDM4

En base a esto, se construye una estructura de red 3D de 444=64 TPU dentro de cada gabinete. La parte externa de la estructura 3D se conecta al OCS, con una interconexión de 4096 TPU correspondientes a 64 gabinetes y 48 conmutadores OCS, lo que equivale a 48*64=6144 módulos ópticos. Internamente, se utilizan conexiones DAC (18000 cables), lo que da como resultado una relación de TPU a módulo óptico de 1:1.5. Bajo la solución OCS, los módulos ópticos deben adoptar una solución de multiplexación por división de longitud de onda y agregar circuladores para reducir la cantidad de fibras, y la solución del módulo óptico tiene características personalizadas (800G VFR8).

Deja un comentario

Ir al Inicio