Antecedentes
Desde que OpenAI introdujo ChatGPT, los modelos de lenguajes grandes (LLM) han ganado una atención significativa y un rápido desarrollo. Muchas empresas están invirtiendo en formación previa en LLM para mantenerse al día con esta tendencia. Sin embargo, entrenar un LLM de escala 100B generalmente requiere recursos computacionales sustanciales, como clústeres equipados con miles de GPU. Por ejemplo, el modelo de la serie Falcon entrena un modelo de 180B en un clúster de GPU 4096 A100, lo que lleva casi 70 días para tokens de 3.5T. A medida que la escala de datos continúa creciendo, aumenta la demanda de potencia informática. Meta, por ejemplo, entrenó su modelo de la serie LLaMA3 utilizando tokens de 15T en dos clústeres H24 de 100K.
En este artículo, profundizamos en los componentes y configuraciones involucrados en la construcción de clústeres de GPU a gran escala. Cubriremos diferentes tipos de GPU, configuraciones de servidores, dispositivos de red (como tarjetas de red, conmutadores y módulos ópticos) y topologías de red de centros de datos (por ejemplo, 3 niveles, Fat-Tree). Específicamente, exploraremos las configuraciones DGX A100 SuperPod y DGX H100 SuperPod de NVIDIA, así como las topologías comunes utilizadas en clústeres de múltiples GPU.
Tenga en cuenta que construir clústeres de GPU ultragrandes es una tarea extremadamente compleja y este artículo solo toca la superficie. En la práctica, la implementación de clústeres, las redes de almacenamiento, las redes de administración y otros aspectos entran en juego, pero no profundizaremos en esos detalles aquí. Además, los diseños de topología de red varían según los diferentes escenarios de aplicación. Nos centraremos en las topologías basadas en árboles que se utilizan habitualmente en clústeres de GPU de IA a gran escala. Por último, no cubriremos componentes críticos como los sistemas de energía y los sistemas de enfriamiento, que son esenciales para mantener y operar los clústeres de GPU.
Componentes relevantes
GPU
El siguiente cuadro ilustra Ampere, Hopper y las últimas GPU de la serie Blackwell. Tenga en cuenta que la capacidad de memoria, la potencia computacional y las capacidades de NVLink están mejorando gradualmente:
A100 -> H100: la computación densa de FP16 aumenta más de 3 veces, mientras que el consumo de energía solo aumenta de 400 W a 700 W.
H200 -> B200: La computación densa del FP16 se duplica, con un consumo de energía que aumenta de 700 W a 1000 W.
La computación densa del B200 FP16 es aproximadamente 7 veces mayor que la del A100, mientras que el consumo de energía es solo 2.5 veces mayor.
Las GPU Blackwell admiten la precisión FP4, lo que ofrece el doble de potencia de cálculo que FP8. Algunas comparaciones entre FP4 y la arquitectura FP8 de Hopper muestran una aceleración aún más significativa.
Tenga en cuenta que GB200 utiliza el chip B200 completo, mientras que B100 y B200 son versiones reducidas correspondientes.

Servidores HGX
HGX es un servidor de alto rendimiento de NVIDIA, que generalmente contiene 8 o 4 GPU, generalmente combinado con CPU Intel o AMD, y utiliza NVLink y NVSwitch para lograr una interconexión completa (8 GPU suelen ser el límite superior de la interconexión completa de NVLink, excepto NVL y SuperPod).
Desde HGX A100 -> HGX H100 y HGX H200, la potencia informática densa del FP16 aumentó 3.3 veces, mientras que el consumo de energía es menos de 2 veces.
Desde HGX H100 y HGX H200 -> HGX B100 y HGX B200, la potencia informática densa del FP16 aumentó aproximadamente 2 veces, mientras que el consumo de energía es similar, como máximo no más del 50%.
Se debe notar que:
La red de HGX B100 y HGX B200 básicamente no se ha actualizado y la tarjeta de red IB sigue siendo de 8x400 Gb/s.

NVIDIA DGX y HGX son dos soluciones de alto rendimiento diseñadas para el aprendizaje profundo, la inteligencia artificial y las necesidades informáticas a gran escala. Sin embargo, difieren en el diseño y las aplicaciones de destino:
DGX:
Dirigido a consumidores en general.
Proporciona soluciones plug-and-play de alto rendimiento.
Viene con soporte de software integral, incluida la pila de software, controladores y herramientas de aprendizaje profundo de NVIDIA.
Normalmente sistemas cerrados y preconstruidos.
HGX:
Dirigido a proveedores de servicios en la nube y operadores de centros de datos a gran escala.
Adecuado para crear soluciones personalizadas de alto rendimiento.
Ofrece un diseño modular, lo que permite a los clientes personalizar el hardware según sus necesidades.
Generalmente se proporciona como plataforma de hardware o arquitectura de referencia.
Respecto a las redes:
Networking
Tarjetas de red
Nos centraremos en ConnectX-5/6/7/8, que son tarjetas de red de alta velocidad de Mellanox.
Estas tarjetas admiten tanto Ethernet como InfiniBand (IB).
ConnectX-5 se lanzó en 2016, seguido de ConnectX-6 en 2020, ConnectX-7 en 2022 y ConnectX-8, que fue presentado por Jensen Huang durante la conferencia GTC de 2024 (aunque las especificaciones detalladas aún no están disponibles).
Cada generación duplica aproximadamente el ancho de banda total y se estima que la próxima generación alcanzará los 1.6 Tbps.

Switches
NVIDIA también ofrece conmutadores tanto para Ethernet como para InfiniBand (IB). Estos conmutadores suelen tener docenas o incluso cientos de puertos, correspondientes a un rendimiento total (capacidad de conmutación bidireccional) calculado como el ancho de banda máximo multiplicado por el número de puertos, donde el "2" indica comunicación bidireccional.

Conmutadores Ethernet de la serie Spectrum-X
Conmutadores InfiniBand de la serie Quantum-X:
Estos conmutadores ofrecen un rendimiento de 400 Gb/s.
Se destacan en informática de alto rendimiento (HPC), inteligencia artificial e infraestructuras de nube a hiperescala.
Los conmutadores Quantum-X ofrecen un rendimiento sólido al tiempo que minimizan la complejidad y el costo.
Además de los conmutadores Mellanox, muchos centros de datos ahora adoptan conmutadores modulares (como la serie Arista 7800) junto con las opciones tradicionales. Por ejemplo, Meta construyó recientemente dos clústeres de GPU con GPU H24 de 100K, utilizando conmutadores Arista 7800. La serie 7800 incluye conmutadores modulares como el 7816LR3 y el 7816R3, que pueden proporcionar 576 puertos de ancho de banda de alta velocidad de 400G. Estos conmutadores utilizan buses internos eficientes o placas posteriores de conmutación para la transmisión y el procesamiento de datos de baja latencia.

Módulos ópticos
Los módulos ópticos desempeñan un papel crucial en la comunicación por fibra óptica. Convierten las señales eléctricas en señales ópticas, que luego se transmiten a través de fibras ópticas. Estos módulos ofrecen velocidades de transmisión más altas, mayores distancias y mayor inmunidad a las interferencias electromagnéticas. Por lo general, un módulo óptico consta de un transmisor (para convertir señales eléctricas en ópticas) y un receptor (para convertir señales ópticas en eléctricas).

Dos tipos de interfaz de módulo óptico comúnmente utilizados son:
SFP (conectable de factor de forma pequeño): los módulos SFP generalmente funcionan como canales de transmisión únicos (usando una fibra o un par de fibras).
QSFP (conectable de factor de forma pequeño cuádruple): los módulos QSFP admiten múltiples canales de transmisión. QSFP-DD (doble densidad) mejora aún más la densidad de puertos mediante el uso de 8 canales.
Recientemente, ha surgido el paquete OSFP (Octal Small Form-factor Pluggable), diseñado específicamente para escenarios de gran ancho de banda como 400 Gbps y 800 Gbps. Los módulos OSFP tienen 8 canales y son ligeramente más grandes que QSFP-DD. No son compatibles con interfaces SFP y QSFP y requieren convertidores. El siguiente diagrama ilustra Módulos OSFP de 400 Gbps para diferentes distancias de transmisión (100 m, 500 m, 2 km y 10 km).
Para varias distancias, considere las siguientes opciones de módulos:
Entre las capas Core y Spine: utilice 10 km 400G LR4 o 800G 2xLR4.
Entre las capas de lomo y hoja: opte por 2 km 400G FR4.
Entre Leaf y ToR (parte superior del bastidor): elija módulos DR de 500 G de 400 m.

Topología de la red del centro de datos (DCN)
Conceptos Básicos
Tráfico Norte-Sur: Se refiere al tráfico proveniente de fuera del centro de datos. Incluye no sólo el tráfico relacionado con Internet sino también el tráfico entre diferentes centros de datos.
Tráfico Este-Oeste: Se refiere al tráfico dentro del mismo centro de datos. Por ejemplo, abarca la comunicación entre diferentes servidores dentro del centro de datos. En los centros de datos modernos, este tipo de tráfico suele constituir una parte significativa, y a menudo representa entre el 70% y el 80% del total.
Las topologías comunes de redes de centros de datos (DCN) se ilustran en el siguiente diagrama.

Arquitectura DCN de varios niveles
Prevalecen las arquitecturas DCN de varios niveles, especialmente la arquitectura DCN de 3 niveles. Esta estructura en forma de árbol gestiona principalmente el tráfico norte-sur y consta de tres capas:
- Capa central: la capa central generalmente comprende enrutadores o conmutadores de alta capacidad.
- Capa de agregación (Capa de distribución): Responsable de conectar dispositivos de la capa de acceso y proporcionar enrutamiento, filtrado e ingeniería de tráfico entre ellos.
- Capa de acceso: la capa de acceso es donde los dispositivos de los usuarios finales se conectan directamente a la red, lo que facilita la conexión de los dispositivos de los usuarios a la red del centro de datos.

En esta arquitectura, generalmente se supone que no todos los dispositivos de acceso se comunican simultáneamente con el ancho de banda máximo. Por lo tanto, una práctica común es asignar un ancho de banda total menor a medida que ascendemos en la jerarquía. Por ejemplo, el ancho de banda total en la capa de acceso podría ser de 20 Gbps, mientras que el ancho de banda total de la capa de distribución podría ser de sólo 1 Gbps. En casos extremos, si todos los dispositivos se comunican con el ancho de banda máximo, esto puede provocar bloqueos, mayor latencia y retrasos impredecibles. Esta situación a menudo se denomina sobresuscripción, y la proporción (por ejemplo, 20:1) indica la tasa de sobresuscripción.
Dentro de esta arquitectura, normalmente están presentes mecanismos de redundancia o respaldo. Los conmutadores entre las capas central y de distribución pueden interconectarse, creando potencialmente bucles. Para evitar bucles, se utilizan protocolos de árbol de expansión (como el protocolo de árbol de expansión, STP). Sin embargo, esto también puede provocar un desperdicio de ancho de banda debido a la redundancia.
Redes CLOS
Las redes CLOS son una estructura de red de conmutación de múltiples etapas propuesta inicialmente por Charles Clos en 1953. Aunque originalmente se usaron para centrales telefónicas, sus principios y diseño ahora se aplican ampliamente en centros de datos y computación de alto rendimiento. La idea central es proporcionar servicios de red de gran ancho de banda y baja latencia a través de una estructura interconectada de múltiples etapas manteniendo la escalabilidad.
Como se muestra en el siguiente diagrama, las redes CLOS normalmente constan de tres capas:
Capa de ingreso: Responsable de recibir señales de entrada externas.
Capa intermedia: conecta la capa de ingreso a los interruptores de la capa de salida.
Capa de salida: Responsable de enviar datos al destino final.

Las redes CLOS ofrecen las siguientes características y ventajas:
Sin bloqueo: Idealmente, un diseño de red CLOS es sin bloqueo (sin convergencia), lo que significa que no se producen retrasos o pérdidas en la transmisión de datos debido a cuellos de botella en el conmutador.
Escalabilidad: al agregar más capas y conmutadores, las redes CLOS pueden escalarse fácilmente para admitir conexiones de entrada y salida adicionales sin sacrificar el rendimiento.
Redundancia: las múltiples rutas del diseño permiten que los datos se transmitan a través de rutas alternativas incluso si fallan ciertos conmutadores o conexiones, lo que mejora la confiabilidad general de la red.
Flexibilidad: las redes CLOS admiten varias configuraciones para adaptarse a diferentes tamaños de sistemas y requisitos de rendimiento.
Topología de árbol gordo
La arquitectura de red de centros de datos (DCN) de Fat-Tree es una forma especializada de la red CLOS. Se utiliza ampliamente en informática de alto rendimiento y centros de datos a gran escala.
Charles Leiserson introdujo esta topología de red en 1985. A diferencia de las redes de árbol tradicionales de 3 niveles, la topología Fat-Tree tiene algunas características únicas:
Todos los conmutadores de capa se reemplazan por conmutadores de bajo costo.
A medida que ascendemos en la jerarquía, los enlaces se "espesan", manteniendo un ancho de banda total constante entre capas para evitar cuellos de botella.
La cantidad de conmutadores y sus conexiones son simétricas en cada capa, lo que garantiza rutas equilibradas para los dispositivos y minimiza los puntos únicos de falla.

Maximizar el ancho de banda de un extremo a otro: el objetivo principal de la arquitectura Fat-Tree es maximizar el ancho de banda de un extremo a otro. Logra una proporción de sobresuscripción de 1:1, lo que da como resultado una red sin bloqueo.
Conteo de conmutadores y configuración de puertos:
En una topología de red Fat-Tree de puertos K (donde K es el número de puertos por conmutador), todos los conmutadores suelen tener el mismo número de puertos.
Exploremos las topologías Fat-Tree de 2 y 3 capas:
Topología de árbol gordo de 2 capas:
Conmutadores Spine: conmutadores K/2, cada uno con puertos K*(K/2).
Conmutadores hoja: conmutadores K, cada uno con puertos K*K.
Esta configuración permite un máximo de servidores KK/2 en una red sin bloqueo, lo que requiere conmutadores de red 3K/2.
Topología de árbol gordo de 3 capas:
Conmutadores centrales (conmutadores Super Spine): (K/2)^2 conmutadores, cada uno con K*(K/2)^2 puertos.
Conmutadores Spine: 2*(K/2)^2 conmutadores, cada uno con puertos K2(K/2)^2.
Conmutadores hoja: 2*(K/2)^2 conmutadores, cada uno con puertos K2(K/2)^2.
Este diseño admite un máximo de servidores K2(K/2)^2/2 = K^3/4 en una red sin bloqueo, lo que requiere 5*K^2/4 conmutadores.

Para las topologías Fat-Tree de 2 y 3 capas, los recuentos de conmutadores y las configuraciones de puertos siguen patrones específicos.
Tenga en cuenta que existen variaciones en la terminología (por ejemplo, Fat-Tree versus Spine-Leaf), pero las consideraremos todas bajo el paraguas de Fat-Tree.
SuperPod NVIDIA DGX – A100
Sistema DGX A100
El sistema DGX A100, como se muestra en el siguiente diagrama, es una configuración de 6U con los siguientes componentes:
8*GPU A100: cada GPU ofrece un ancho de banda NVLink de 600 GB/s.
Ancho de banda total de NVSwitch: el sistema alcanza un ancho de banda NVSwitch total de 4.8 TB/s, con 640 GB de memoria HBM2 (80 GB por GPU).
Conexiones informáticas (IB): Hay 8 tarjetas de red ConnectX-6, que proporcionan un ancho de banda total combinado de 8 * 200 Gbps.
Conexiones de Almacenamiento (IB): 2 conexiones para almacenamiento.
Conexión dentro de banda (Ethernet): Se utiliza para comunicación interna.
Conexión Fuera de Banda (Ethernet): Para fines de gestión.

En particular, el ancho de banda de NVLink se mide en bytes, mientras que el ancho de banda de la red normalmente utiliza bits. En este sistema, el ancho de banda interno alcanza los 4.8 TB/s, mientras que el ancho de banda general de la red es de 1.6 Tbps, lo que resulta en una diferencia de 24 veces.

SuperPod SU
El SuperPod SU (Unidad escalable), que se muestra en la figura, sirve como bloque de construcción fundamental para construir el DGX-SuperPod-A100. Estos son sus componentes clave:
Cada SU incluye 5 racks informáticos y 1 rack de red Leaf.
Cada Compute Rack alberga 4 sistemas DGX A100 y 2 unidades de distribución de energía (PDU) de 3U, lo que suma un total de 32 GPU A100 por Compute Rack. Por tanto, una SU consta de 160 GPU A100.
El Leaf Network Rack contiene 8 conmutadores de cómputo (1U) y 2 conmutadores de almacenamiento (1U).
Los conmutadores Compute utilizan conmutadores IB QM8790 de 200 Gb/s, lo que da como resultado un total de 320 puertos:
160 puertos se conectan a las tarjetas de red ConnectX-6 en Compute Racks, proporcionando 200 Gbps por GPU.
Los 160 puertos restantes se conectan al Spine Rack.

Algunos escenarios también pueden utilizar conmutadores de parte superior del rack (ToR) dentro de un gabinete para simplificar el cableado. Sin embargo, este enfoque puede provocar un despilfarro portuario. Por ejemplo, debido a limitaciones de energía y desafíos de enfriamiento, los servidores GPU a menudo están limitados a un solo gabinete, lo que reduce la cantidad de tarjetas de red.

Tenga en cuenta que, si bien algunos escenarios industriales pueden utilizar menos tarjetas de red (por ejemplo, 4×200 Gbps) dentro de un sistema 8*A100, la topología general de la red sigue siendo similar.
Estante para la columna vertebral
Como se muestra en la figura, un Spine Rack contiene 20 conmutadores informáticos de 1U, específicamente conmutadores IB QM8790 de 200 Gb/s, con un total de 800 puertos. El conmutador fuera de banda y el conmutador dentro de banda restantes se pueden utilizar para la gestión de la red.

DGX SuperPod de 100 nodos
La siguiente figura ilustra un DGX-SuperPOD de 100 nodos, que comprende 5 SU y un Spine Rack adicional.
Cada SU incluye 8 conmutadores informáticos Leaf (QM7890, 200 Gbps).
Las 8 NIC ConnectX-6 de cada nodo se conectan a 8 conmutadores informáticos Leaf, y cada ConnectX-6 corresponde a 1 GPU.
Los Leaf Compute Switches tienen 20 puertos que se conectan a 20 nodos dentro de la SU y 20 puertos adicionales que se conectan a los 20 Spine Compute Switches en el Spine Rack.

Esta topología logra una red sin bloqueo para 800 GPU (dos GPU cualesquiera pueden comunicarse):
Las GPU de diferentes SU se conectan a través de: ConnectX-6 -> Leaf Switch -> Spine Switch -> Leaf Switch -> ConnectX-6.
Las GPU dentro de la misma SU pero con diferentes nodos se conectan a través de: ConnectX-6 -> Leaf Switch -> ConnectX-6.
Las GPU dentro del mismo nodo se comunican a través de NVLink.
El límite práctico para 800 GPU (cada GPU correspondiente a un puerto NIC de 200 Gbps) usando QM8790 es una red Fat-Tree de 2 niveles. Más allá de 800 GPU, se necesitaría un Fat-Tree de 3 niveles, que permitiría hasta 16,000 GPU.
DGX SuperPod de 140 nodos
En un sistema de 100 nodos donde todos los puertos Compute Switch están ocupados, la expansión a más GPU requiere la transición de conmutadores de 2 capas a 3 capas. Esto implica agregar una capa Core Compute Switch, aún usando QM8790 a 200 Gbps.
La figura muestra un SuperPod de 140 nodos con 7 SU, con un total de 56 conmutadores Leaf. Idealmente, 56 conmutadores de hoja requerirían 56 conmutadores de columna y 28 conmutadores de núcleo. Sin embargo, el diseño real utiliza 80 interruptores espinales, organizados en 8 grupos (SG), cada uno con 10 interruptores espinales y cada grupo central (CG) con 14 interruptores centrales. Esta topología simétrica de Fat-Tree simplifica la gestión.
Cada conmutador Leaf en una SU se conecta a 10 conmutadores Spine en el SG correspondiente (20 puertos por conmutador Leaf). Los Spine Switches alternan conexiones con los Core Switches (posiciones impares a los Core Switches impares, posiciones pares a los Core Switches pares).
Cada Core Switch se conecta a 40 Spine Switches.

Esta configuración admite un clúster de GPU de 140*8=1120, y cada GPU tiene una NIC ConnectX-6 de 200 Gbps.
Bandeja de almacenamiento
Como se muestra en la figura siguiente, un bastidor de almacenamiento contiene 4 conmutadores de almacenamiento, además de conmutadores IB QM8790 de 200 Gbps, con un total de 160 puertos. Dentro del bastidor también se encuentran las unidades de almacenamiento correspondientes.

Tela de almacenamiento DGX SuperPod
La figura ilustra Storage Fabric para la configuración de 140 nodos. Se compone de 18 interruptores de hoja. Cada SuperPod SU (Unidad escalable) contiene 2 bastidores de red Leaf y 1 bastidor de almacenamiento. Además, hay 8 interruptores de columna.

Configuraciones adicionales
La Tabla 3 proporciona detalles sobre las configuraciones de Compute para diferentes nodos.

La Tabla 4 describe las configuraciones de almacenamiento.

SuperPod NVIDIA DGX – H100
Sistema DGX H100
El sistema DGX H100 (6U), como se muestra, incluye:
- 8 GPU H100, cada una con un ancho de banda NVLink de 900 GB/s.
- Un total de 7.2 TB/s de ancho de banda NVSwitch y 640 GB de memoria HBM3 (80 GB por GPU).
- 4 puertos OSFP (IB) correspondientes a 8 NIC ConnectX-7, que proporcionan un ancho de banda de 8*400 Gbps.
- Ranuras 1 y 2 con 2 NIC ConnectX-7, que ofrecen un ancho de banda de 2*400 Gbps.
- Una conexión dentro de banda (Ethernet).


Las 8 GPU están completamente interconectadas a través de NVSwitch. El ancho de banda interno alcanza los 7.2 TB/s, mientras que el ancho de banda general de la red es de 3.2 Tbps, una diferencia de 22.5 veces.
SuperPod SU
La Figura 2 muestra el componente fundamental del DGX-SuperPod-H100, conocido como SuperPod SU:
- Cada SU contiene 8 racks de computación, cada uno de los cuales proporciona 40 kW.
- Cada Compute Rack alberga 4 sistemas DGX H100 y 3 PDU (unidades de distribución de energía), lo que da como resultado 32 GPU H100 por Compute Rack. Así, una SU tiene capacidad para 256 GPU H100.

Estante de gestión
En el DGX SuperPod correspondiente a las GPU H100, NVIDIA ofrece un rack de gestión similar a los racks de almacenamiento y de columna de la serie A100. La figura 3 ofrece un ejemplo (las configuraciones específicas pueden variar):
- Conmutadores de computación de 32 hojas (QM9700) ofrecen 64 puertos de 400 Gbps cada uno. En teoría, hay 1024 puertos de 400 Gbps disponibles para conectarse a las NIC ConnectX-7 en los nodos. Los 1024 puertos restantes se conectan precisamente a 16 conmutadores Spine Compute, lo que logra una red sin bloqueos para 1024 GPU.
- 16 conmutadores de computación Spine (también QM9700) se conectan a la mitad de los puertos en 32 conmutadores de computación Leaf.
- 8 conmutadores de almacenamiento Leaf (QM9700) son parte de la configuración.
- 4 conmutadores de almacenamiento Spine (QM9700) completan la configuración.

DGX SuperPod de 127 nodos
La Figura 5 ilustra un SuperPod DGX de 127 nodos con 4 unidades escalables (SU) y un bastidor de administración asociado. En teoría, Management Rack puede conectarse a los 128 nodos en las 4 SU. Sin embargo, debido a que algunos conmutadores Leaf están conectados a Unified Fabric Manager (UFM), la cantidad real de nodos es 127.

Configuraciones adicionales
Como se muestra en la Tabla 3, utilizando conmutadores QM9700, un Fat-Tree de 2 niveles puede lograr una red sin bloqueo para hasta 6464/2=2048 GPU (correspondientes a 8 SU). Un Fat-Tree de 3 niveles puede admitir hasta 6464*64/4=65536 GPU. En la práctica, la configuración incluye 64 SU, con un total de 16384 GPU.

Soluciones de clúster de capacitación de GPU para la industria
Topología de árbol ancho de dos niveles
La topología común Fat-Tree (Spine-Leaf) sin bloqueo de dos niveles prevalece en las máquinas de entrenamiento de 8 GPU. Dentro de una sola máquina, las 8 GPU están completamente interconectadas a través de NVLink + NVSwitch, con un ancho de banda de comunicación significativamente mayor que el ancho de banda de la red. Por lo tanto, es una práctica estándar conectar la NIC de cada GPU a diferentes conmutadores:
Cada grupo contiene 8 conmutadores Leaf, correspondientes a las 8 GPU de una máquina.
Suponiendo que un Leaf Switch tiene 128 puertos, 64 puertos se conectan a las NIC de las GPU correspondientes, lo que da como resultado 64*8=512 GPU por grupo. Leaf Switch 1 conecta las NIC de todas las GPU del Nodo 1, y así sucesivamente.
Esta característica se puede aprovechar al diseñar estrategias de capacitación distribuida.
Para lograr una malla completa entre los interruptores Spine y Leaf, cada interruptor Leaf se conecta a un interruptor Spine. Por lo tanto, hay 64 conmutadores Spine y cada conmutador Spine se conecta a los 128 conmutadores Leaf. Esto requiere 16 grupos.
En resumen, un máximo de 192 conmutadores con 128 puertos cada uno pueden admitir 512*16=8192 GPU.

Topología de árbol de grasa de dos niveles FiberMall
La solución estándar de FiberMall para Fat-Tree de dos niveles es similar a la topología descrita anteriormente. Sin embargo, utiliza conmutadores de 64 puertos.

Debido a los conmutadores de 64 puertos de 400 Gbps:
Los cambios de hoja y columna se reducen a la mitad (64 y 32, respectivamente).
La compatibilidad con GPU se reduce a 1/4, lo que da como resultado 2*(64/2)*(64/2)=2048 GPU.
El recuento total de módulos ópticos incluye puertos de conmutador y NIC de GPU: (64+32)*64+2048=8192.
Topología de árbol grueso de tres niveles
La topología común de Fat-Tree sin bloqueo de tres niveles (SuperSpine-Spine-Leaf) trata el Spine-Leaf de dos niveles como un Pod.
Dado que los conmutadores Spine también se conectan a los conmutadores SuperSpine, el número de grupos se reduce a la mitad. Cada Pod tiene 64 Spine Switches, correspondientes a 4096 GPU.
Múltiples Pods pueden construir además 64 SuperSpine Fabrics, cada uno completamente interconectado con Spine Switches de diferentes Pods. Por ejemplo, con 8 Pods, cada Fabric necesita solo 4 conmutadores SuperSpine de 128 puertos.
La configuración para 8 Pods incluye:
- GPU totales: 4096*8=32768
- Interruptores SuperSpine: 64*4=256
- Interruptores de columna vertebral: 64*8=512
- Interruptores de hoja: 64*8=512
- Cambios totales: 256+512+512=1280
- Módulos ópticos totales: 1280*128+32768=196608
El máximo teórico soporta 128 Pods, correspondientes a:
- GPUs: 4096128=524288=2(128/2)^3
- SuperSpine Switches: 64*64=4096=(128/2)^2
- Spine Switches: 64128=8192=2(128/2)^2
- Leaf Switches: 64128=8192=2(128/2)^2
- Total Switches: 4096+8192+8192=20480=5*(128/2)^2
Productos relacionados:
-
NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m en OM3/50m en OM4 MTP/MPO-12 Módulo transceptor óptico FEC multimodo $650.00
-
NVIDIA MMA4Z00-NS-FLT Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $850.00
-
NVIDIA MMA4Z00-NS Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $750.00
-
NVIDIA MMS4X00-NM Compatible 800 Gb/s Puerto doble OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 Módulo transceptor óptico SMF $1100.00
-
NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Módulo transceptor óptico $1200.00
-
NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $800.00
-
Mellanox MMA1T00-HS Compatible 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 módulo transceptor óptico $200.00
-
Compatible con NVIDIA MFP7E10-N010 10 m (33 pies) 8 fibras Baja pérdida de inserción Hembra a hembra Cable troncal MPO Polaridad B APC a APC LSZH multimodo OM3 50/125 $47.00
-
NVIDIA MCP7Y00-N003-FLT Compatible 3 m (10 pies) 800G OSFP de doble puerto a 2x400G OSFP de parte superior plana InfiniBand NDR Breakout DAC $275.00
-
Cable de cobre de conexión directa, 7m (70 pies), 002G, doble puerto, 2x7G OSFP a 400x2G QSFP200, Compatible con NVIDIA MCP4Y100-H56 $155.00
-
Cable de cobre activo InfiniBand NDR de 4 m (80 pies) compatible con NVIDIA MCA003J3-N10-FTF de doble puerto 800x2G OSFP a 400x2G OSFP, parte superior plana en un extremo y parte superior con aletas en el otro $600.00
-
NVIDIA MCP7Y10-N002 Compatible con 2m (7 pies) 800G InfiniBand NDR OSFP de doble puerto a DAC de ruptura 2x400G QSFP112 $200.00