BACKGROUND
Desde que a OpenAI introduziu o ChatGPT, os grandes modelos de linguagem (LLMs) ganharam atenção significativa e rápido desenvolvimento. Muitas empresas estão investindo em pré-treinamento LLM para acompanhar esta tendência. No entanto, treinar um LLM em escala 100B normalmente requer recursos computacionais substanciais, como clusters equipados com milhares de GPUs. Por exemplo, o modelo da série Falcon treina um modelo 180B em um cluster de GPU 4096 A100, levando quase 70 dias para tokens de 3.5T. À medida que a escala de dados continua a crescer, a demanda por poder computacional aumenta. A Meta, por exemplo, treinou seu modelo da série LLaMA3 usando tokens de 15T em dois clusters H24 de 100K.
Neste artigo, investigamos os componentes e configurações envolvidos na construção de clusters de GPU em grande escala. Abordaremos diferentes tipos de GPU, configurações de servidor, dispositivos de rede (como placas de rede, switches e módulos ópticos) e topologias de rede de data center (por exemplo, 3 camadas, Fat-Tree). Especificamente, exploraremos as configurações DGX A100 SuperPod e DGX H100 SuperPod da NVIDIA, bem como topologias comuns usadas em clusters multi-GPU.
Tenha em mente que construir clusters de GPU ultragrandes é uma tarefa extremamente complexa e este artigo apenas arranha a superfície. Na implantação prática de cluster, redes de armazenamento, redes de gerenciamento e outros aspectos entram em jogo, mas não entraremos nesses detalhes aqui. Além disso, os projetos de topologia de rede variam com base em diferentes cenários de aplicação. Nosso foco estará em topologias baseadas em árvore comumente usadas em clusters de GPU de IA em grande escala. Por último, não cobriremos componentes críticos como sistemas de energia e sistemas de refrigeração, que são essenciais para manter e operar clusters de GPU.
Componentes relevantes
GPUs
O gráfico abaixo ilustra Ampere, Hopper e as mais recentes GPUs da série Blackwell. Observe que a capacidade de memória, o poder computacional e os recursos do NVLink estão melhorando gradualmente:
A100 -> H100: A computação densa do FP16 aumenta mais de 3x, enquanto o consumo de energia aumenta apenas de 400W para 700W.
H200 -> B200: A computação densa do FP16 dobra, com o consumo de energia aumentando de 700W para 1000W.
A computação densa do B200 FP16 é aproximadamente 7x maior que a do A100, enquanto o consumo de energia é apenas 2.5x maior.
As GPUs Blackwell suportam precisão FP4, oferecendo o dobro do poder de computação do FP8. Algumas comparações entre a arquitetura FP4 e FP8 da Hopper mostram uma aceleração ainda mais significativa.
Observe que o GB200 usa o chip B200 completo, enquanto o B100 e o B200 são versões reduzidas correspondentes.

Servidores HGX
HGX é um servidor de alto desempenho da NVIDIA, geralmente contendo 8 ou 4 GPUs, normalmente emparelhado com CPUs Intel ou AMD, e usando NVLink e NVSwitch para obter interconexão completa (8 GPUs geralmente são o limite superior da interconexão total NVLink, exceto para NVL e SuperPod).
Do HGX A100 -> HGX H100 e HGX H200, o denso poder de computação do FP16 aumentou 3.3 vezes, enquanto o consumo de energia é inferior a 2 vezes.
De HGX H100 e HGX H200 -> HGX B100 e HGX B200, o denso poder de computação do FP16 aumentou cerca de 2 vezes, enquanto o consumo de energia é semelhante, no máximo não mais que 50%.
Deve notar-se que:
A rede do HGX B100 e HGX B200 basicamente não foi atualizada e a placa de rede IB ainda é de 8x400Gb/s.

NVIDIA DGX e HGX são duas soluções de alto desempenho projetadas para aprendizado profundo, inteligência artificial e necessidades de computação em grande escala. No entanto, eles diferem em design e aplicações alvo:
DGX:
Voltado para consumidores em geral.
Fornece soluções plug-and-play de alto desempenho.
Vem com suporte de software abrangente, incluindo pilha de software, drivers e ferramentas de aprendizagem profunda da NVIDIA.
Normalmente sistemas pré-construídos e fechados.
HGX:
Voltado para provedores de serviços em nuvem e operadores de data centers em grande escala.
Adequado para construir soluções personalizadas de alto desempenho.
Oferece design modular, permitindo que os clientes personalizem o hardware com base em suas necessidades.
Geralmente fornecido como plataforma de hardware ou arquitetura de referência.
Em relação à rede:
Networking
Placas de rede
Vamos nos concentrar nas ConnectX-5/6/7/8, que são placas de rede de alta velocidade da Mellanox.
Essas placas suportam Ethernet e InfiniBand (IB).
O ConnectX-5 foi lançado em 2016, seguido pelo ConnectX-6 em 2020, o ConnectX-7 em 2022 e o ConnectX-8, que foi apresentado por Jensen Huang durante a conferência GTC de 2024 (embora especificações detalhadas ainda não estejam disponíveis).
Cada geração praticamente duplica a largura de banda total e estima-se que a próxima geração atinja 1.6 Tbps.

Switches
A NVIDIA também oferece switches para Ethernet e InfiniBand (IB). Esses switches geralmente possuem dezenas ou até centenas de portas, correspondendo a um throughput total (capacidade de comutação bidirecional) calculado como a largura de banda máxima multiplicada pelo número de portas, com o “2” indicando comunicação bidirecional.

Switches Ethernet Série Spectrum-X
Switches InfiniBand Série Quantum-X:
Esses switches oferecem taxa de transferência de 400 Gb/s.
Eles se destacam em computação de alto desempenho (HPC), IA e infraestruturas de nuvem em hiperescala.
Os switches Quantum-X oferecem desempenho robusto, minimizando a complexidade e o custo.
Além dos switches Mellanox, muitos data centers agora adotam switches modulares (como a série Arista 7800) juntamente com opções tradicionais. Por exemplo, a Meta construiu recentemente dois clusters de GPU com GPUs 24K H100, utilizando switches Arista 7800. A série 7800 inclui switches modulares como o 7816LR3 e o 7816R3, que podem fornecer 576 portas com largura de banda de alta velocidade de 400G. Esses switches usam barramentos internos eficientes ou backplanes de switch para transmissão e processamento de dados de baixa latência.

Módulos Ópticos
Módulos ópticos desempenham um papel crucial na comunicação por fibra óptica. Eles convertem sinais elétricos em sinais ópticos, que são então transmitidos por fibras ópticas. Esses módulos oferecem maiores taxas de transmissão, maiores distâncias e maior imunidade à interferência eletromagnética. Normalmente, um módulo óptico consiste em um transmissor (para converter sinais elétricos em ópticos) e um receptor (para converter sinais ópticos em elétricos).

Dois tipos de interface de módulo óptico comumente usados são:
SFP (Small Form-factor Pluggable): Os módulos SFP geralmente operam como canais de transmissão únicos (usando uma fibra ou um par de fibras).
QSFP (Quad Small Form-factor Pluggable): Os módulos QSFP suportam vários canais de transmissão. QSFP-DD (Double Density) aumenta ainda mais a densidade da porta usando 8 canais.
Recentemente, surgiu o pacote OSFP (Octal Small Form-factor Pluggable), projetado especificamente para cenários de alta largura de banda, como 400 Gbps e 800 Gbps. Os módulos OSFP possuem 8 canais e são ligeiramente maiores que o QSFP-DD. Eles não são compatíveis com interfaces SFP e QSFP e requerem conversores. O diagrama abaixo ilustra Módulos OSFP de 400 Gbps para diferentes distâncias de transmissão (100m, 500m, 2km e 10km).
Para várias distâncias, considere as seguintes opções de módulo:
Entre as camadas Core e Spine: Use 10km 400G LR4 ou 800G 2xLR4.
Entre as camadas Spine e Leaf: Opte por 2km 400G FR4.
Entre Leaf e ToR (topo do rack): Escolha módulos 500m 400G DR.

Topologia de rede de data center (DCN)
Conceitos Básicos
Tráfego Norte-Sul: Refere-se ao tráfego proveniente de fora do data center. Inclui não apenas o tráfego relacionado à Internet, mas também o tráfego entre diferentes data centers.
Tráfego Leste-Oeste: Refere-se ao tráfego dentro do mesmo data center. Por exemplo, abrange a comunicação entre diferentes servidores dentro do data center. Nos data centers modernos, esse tipo de tráfego normalmente constitui uma parcela significativa, muitas vezes representando 70% a 80% do total.
Topologias comuns de rede de data center (DCN) são ilustradas no diagrama abaixo.

Arquitetura DCN multicamadas
As arquiteturas DCN multicamadas são predominantes, especialmente a arquitetura DCN de 3 camadas. Esta estrutura baseada em árvore gerencia principalmente o tráfego Norte-Sul e consiste em três camadas:
- Camada central: A camada central normalmente compreende roteadores ou switches de alta capacidade.
- Camada de Agregação (Camada de Distribuição): Responsável por conectar dispositivos da camada de acesso e fornecer roteamento, filtragem e engenharia de tráfego entre eles.
- Camada de acesso: A camada de acesso é onde os dispositivos do usuário final se conectam diretamente à rede, facilitando a conexão dos dispositivos do usuário à rede do data center.

Nesta arquitetura, assume-se geralmente que nem todos os dispositivos de acesso se comunicam simultaneamente com largura de banda máxima. Portanto, uma prática comum é alocar largura de banda total menor à medida que subimos na hierarquia. Por exemplo, a largura de banda total na camada de acesso pode ser de 20 Gbps, enquanto a largura de banda total da camada de distribuição pode ser de apenas 1 Gbps. Em casos extremos, se todos os dispositivos se comunicarem com largura de banda máxima, isso poderá levar a bloqueios, aumento de latência e atrasos imprevisíveis. Esta situação é muitas vezes referida como excesso de assinaturas, com a proporção (por exemplo, 20:1) indicando a taxa de excesso de assinaturas.
Dentro desta arquitetura, normalmente estão presentes mecanismos de redundância ou backup. Os switches entre as camadas central e de distribuição podem se interconectar, criando potencialmente loops. Para evitar loops, são usados protocolos spanning tree (como o Spanning Tree Protocol, STP). No entanto, isso também pode resultar em desperdício de largura de banda devido à redundância.
Redes CLOS
As redes CLOS são uma estrutura de rede de comutação de vários estágios proposta inicialmente por Charles Clos em 1953. Embora originalmente usadas para centrais telefônicas, seus princípios e design são agora amplamente aplicados em data centers e computação de alto desempenho. A ideia central é fornecer serviços de rede de alta largura de banda e baixa latência por meio de uma estrutura interconectada de vários estágios, mantendo a escalabilidade.
Conforme mostrado no diagrama abaixo, as redes CLOS normalmente consistem em três camadas:
Camada de ingresso: Responsável por receber sinais de entrada externos.
Camada intermediária: conecta a camada de entrada aos switches da camada de saída.
Camada de Saída: Responsável por enviar dados ao destino final.

As redes CLOS oferecem os seguintes recursos e vantagens:
Sem bloqueio: Idealmente, um projeto de rede CLOS é sem bloqueio (sem convergência), o que significa que atrasos ou perdas na transmissão de dados não ocorrem devido a gargalos de comutação.
Escalabilidade: Ao adicionar mais camadas e switches, as redes CLOS podem ser facilmente dimensionadas para suportar conexões adicionais de entrada e saída sem sacrificar o desempenho.
Redundância: Os múltiplos caminhos do design permitem que os dados sejam transmitidos através de rotas alternativas mesmo se determinados switches ou conexões falharem, melhorando a confiabilidade geral da rede.
Flexibilidade: As redes CLOS suportam diversas configurações para acomodar diferentes tamanhos de sistema e requisitos de desempenho.
Topologia de árvore gorda
A arquitetura de rede de data center (DCN) Fat-Tree é uma forma especializada da rede CLOS. É amplamente utilizado em computação de alto desempenho e data centers de grande escala.
Charles Leiserson introduziu esta topologia de rede em 1985. Ao contrário das redes tradicionais em árvore de 3 camadas, a topologia Fat-Tree possui alguns recursos exclusivos:
Todos os switches de camada são substituídos por switches de baixo custo.
À medida que avançamos na hierarquia, os links “engrossam-se”, mantendo a largura de banda total consistente entre as camadas para evitar gargalos.
O número de switches e suas conexões são simétricos em cada camada, garantindo caminhos balanceados para dispositivos e minimizando pontos únicos de falha.

Maximizando a largura de banda ponta a ponta: O objetivo principal da arquitetura Fat-Tree é maximizar a largura de banda ponta a ponta. Atinge uma taxa de excesso de assinaturas de 1:1, resultando em uma rede sem bloqueio.
Contagem de switches e configuração de portas:
Em uma topologia de rede Fat-Tree de portas K (onde K é o número de portas por switch), todos os switches normalmente têm o mesmo número de portas.
Vamos explorar as topologias Fat-Tree de 2 e 3 camadas:
Topologia de árvore gorda de 2 camadas:
Spine Switches: Switches K/2, cada um com portas K*(K/2).
Switches Leaf: Switches K, cada um com portas K*K.
Esta configuração permite um máximo de servidores KK/2 em uma rede sem bloqueio, exigindo switches de rede 3K/2.
Topologia de árvore gorda de 3 camadas:
Core Switches (Super Spine Switches): (K/2)^2 switches, cada um com K*(K/2)^2 portas.
Spine Switches: 2*(K/2)^2 switches, cada um com portas K2(K/2)^2.
Switches Leaf: 2*(K/2)^2 switches, cada um com portas K2(K/2)^2.
Este design suporta um máximo de servidores K2(K/2)^2/2 = K^3/4 em uma rede sem bloqueio, exigindo 5*K^2/4 switches.

Para topologias Fat-Tree de 2 e 3 camadas, as contagens de switches e as configurações de portas seguem padrões específicos.
Observe que existem variações na terminologia (por exemplo, Fat-Tree vs. Spine-Leaf), mas consideraremos todas elas sob o guarda-chuva Fat-Tree.
SuperPod NVIDIA DGX-A100
Sistema DGX A100
O Sistema DGX A100, conforme mostrado no diagrama abaixo, é uma configuração 6U com os seguintes componentes:
8 GPUs A100: Cada GPU oferece 600 GB/s de largura de banda NVLink.
Largura de banda NVSwitch total: O sistema atinge uma largura de banda NVSwitch total de 4.8 TB/s, com 640 GB de memória HBM2 (80 GB por GPU).
Conexões de computação (IB): Existem 8 placas de rede ConnectX-6, fornecendo uma largura de banda total combinada de 8 * 200 Gbps.
Conexões de armazenamento (IB): 2 conexões para armazenamento.
Conexão In-Band (Ethernet): Usada para comunicação interna.
Conexão Out-Band (Ethernet): Para fins de gerenciamento.

Notavelmente, a largura de banda do NVLink é medida em bytes, enquanto a largura de banda da rede normalmente usa bits. Neste sistema, a largura de banda interna atinge 4.8 TB/s, enquanto a largura de banda geral da rede é de 1.6 Tbps, resultando em uma diferença de 24 vezes.

SuperPod SU
O SuperPod SU (Unidade Escalável), representado na figura, serve como bloco de construção fundamental para a construção do DGX-SuperPod-A100. Aqui estão seus principais componentes:
Cada SU inclui 5 racks de computação e 1 rack de rede Leaf.
Cada Compute Rack abriga 4 sistemas DGX A100 e 2 unidades de distribuição de energia (PDUs) 3U, totalizando 32 GPUs A100 por Compute Rack. Assim, uma SU compreende 160 GPUs A100.
O Leaf Network Rack contém 8 switches de computação (1U) e 2 switches de armazenamento (1U).
Compute Switches utilizam switches IB QM8790 de 200 Gb/s, resultando em um total de 320 portas:
160 portas conectam-se às placas de rede ConnectX-6 nos Compute Racks, fornecendo 200 Gbps por GPU.
As 160 portas restantes se conectam ao Spine Rack.

Alguns cenários também podem usar switches Top-of-Rack (ToR) dentro de um gabinete para um cabeamento mais simples. No entanto, esta abordagem pode levar ao desperdício portuário. Por exemplo, devido a restrições de energia e desafios de refrigeração, os servidores GPU são frequentemente limitados a um único gabinete, reduzindo o número de placas de rede.

Observe que, embora alguns cenários industriais possam usar menos placas de rede (por exemplo, 4×200 Gbps) em um sistema 8*A100, a topologia geral da rede permanece semelhante.
Rack de coluna
Conforme mostrado na figura, um Spine Rack contém 20 switches de computação de 1U, especificamente switches IB QM8790 de 200 Gb/s, totalizando 800 portas. O switch fora de banda e o switch dentro da banda restantes podem ser usados para gerenciamento de rede.

DGX SuperPod 100 nós
A figura abaixo ilustra um DGX-SuperPOD de 100 nós, compreendendo 5 SUs e um Spine Rack adicional.
Cada SU inclui 8 switches Leaf Compute (QM7890, 200 Gbps).
As 8 NICs ConnectX-6 de cada Node se conectam a 8 Leaf Compute Switches, com cada ConnectX-6 correspondendo a 1 GPU.
Os Leaf Compute Switches têm 20 portas conectando-se a 20 nós dentro do SU e 20 portas adicionais conectando-se aos 20 Spine Compute Switches no Spine Rack.

Esta topologia atinge uma rede sem bloqueio para 800 GPUs (quaisquer duas GPUs podem se comunicar):
GPUs de diferentes SUs se conectam via: ConnectX-6 -> Leaf Switch -> Spine Switch -> Leaf Switch -> ConnectX-6.
GPUs dentro da mesma SU, mas nós diferentes, conectam-se via: ConnectX-6 -> Leaf Switch -> ConnectX-6.
GPUs dentro do mesmo Node se comunicam via NVLink.
O limite prático para 800 GPUs (cada GPU corresponde a uma porta NIC de 200 Gbps) usando QM8790 é uma rede Fat-Tree de 2 níveis. Além de 800 GPUs, seria necessária uma Fat-Tree de 3 níveis, permitindo até 16,000 GPUs.
DGX SuperPod 140 nós
Em um sistema de 100 nós em que todas as portas do Compute Switch estão ocupadas, a expansão para mais GPUs requer a transição de switches de 2 camadas para switches de 3 camadas. Isso envolve adicionar uma camada Core Compute Switch, ainda usando QM8790 a 200 Gbps.
A figura mostra um SuperPod de 140 nós com 7 SUs, totalizando 56 Leaf Switches. Idealmente, 56 Leaf Switches exigiriam 56 Spine Switches e 28 Core Switches. No entanto, o design real usa 80 Spine Switches, organizados em 8 Grupos (SG), cada um com 10 Spine Switches, e cada Grupo Central (CG) com 14 Core Switches. Essa topologia Fat-Tree simétrica simplifica o gerenciamento.
Cada Leaf Switch em uma SU se conecta a 10 Spine Switches no SG correspondente (20 portas por Leaf Switch). Os Spine Switches alternam conexões com os Core Switches (posições ímpares para Core Switches ímpares, posições pares para Core Switches pares).
Cada Core Switch se conecta a 40 Spine Switches.

Esta configuração suporta um cluster de GPU 140*8=1120, com cada GPU tendo uma NIC ConnectX-6 de 200 Gbps.
rack de armazenamento
Conforme mostrado na figura abaixo, um Rack de Armazenamento contém 4 Switches de Armazenamento, também switches IB QM8790 de 200 Gbps, totalizando 160 portas. As unidades de armazenamento correspondentes também estão presentes no rack.

Tecido de armazenamento DGX SuperPod
A figura ilustra o Storage Fabric para a configuração de 140 nós. É composto por 18 interruptores de folha. Cada SuperPod SU (unidade escalável) contém 2 racks de rede Leaf e 1 rack de armazenamento. Além disso, existem 8 interruptores de coluna.

Configurações Adicionais
A Tabela 3 fornece detalhes sobre as configurações de computação para diferentes nós.

A Tabela 4 descreve as configurações de armazenamento.

SuperPod NVIDIA DGX-H100
Sistema DGX H100
O Sistema DGX H100 (6U), conforme mostrado, inclui:
- 8 GPUs H100, cada uma com largura de banda NVLink de 900 GB/s.
- Um total de largura de banda NVSwitch de 7.2 TB/s e 640 GB de memória HBM3 (80 GB por GPU).
- 4 portas OSFP (IB) correspondentes a 8 NICs ConnectX-7, fornecendo largura de banda de 8*400 Gbps.
- Slots 1 e 2 com 2 NICs ConnectX-7, oferecendo largura de banda de 2*400 Gbps.
- Uma conexão em banda (Ethernet).


Todas as 8 GPUs estão totalmente interconectadas via NVSwitch. A largura de banda interna chega a 7.2 TB/s, enquanto a largura de banda geral da rede é de 3.2 Tbps, uma diferença de 22.5 vezes.
SuperPod SU
A Figura 2 mostra o bloco de construção fundamental do DGX-SuperPod-H100, conhecido como SuperPod SU:
- Cada SU contém 8 racks de computação, com cada rack fornecendo 40 kW.
- Cada Compute Rack abriga 4 sistemas DGX H100 e 3 PDUs (unidades de distribuição de energia), resultando em 32 GPUs H100 por Compute Rack. Assim, uma SU acomoda 256 GPUs H100.

Rack de gerenciamento
No DGX SuperPod correspondente às GPUs H100, a NVIDIA oferece um Management Rack similar aos Spine e Storage Racks da série A100. A Figura 3 fornece um exemplo (configurações específicas podem variar):
- Interruptores de computação de 32 folhas (QM9700) oferecem 64 portas de 400 Gbps cada. Teoricamente, há 1024 portas de 400 Gbps disponíveis para conectar às NICs ConnectX-7 nos nós. As 1024 portas restantes conectam-se precisamente a 16 Spine Compute Switches, alcançando uma rede sem bloqueio para 1024 GPUs.
- 16 Spine Compute Switches (também QM9700) conectam-se a metade das portas em 32 Leaf Compute Switches.
- 8 switches de armazenamento Leaf (QM9700) fazem parte da configuração.
- 4 Spine Storage Switches (QM9700) completam a configuração.

DGX SuperPod 127 nós
A Figura 5 ilustra um DGX SuperPod de 127 nós com 4 unidades escalonáveis (SUs) e um rack de gerenciamento associado. Em teoria, o Management Rack pode conectar-se aos 128 nós nas 4 SUs. No entanto, devido a alguns switches Leaf estarem conectados ao Unified Fabric Manager (UFM), o número real de nós é 127.

Configurações Adicionais
Conforme mostrado na Tabela 3, usando switches QM9700, um Fat-Tree de 2 níveis pode alcançar uma rede sem bloqueio para até 6464/2=2048 GPUs (correspondendo a 8 SUs). Um Fat-Tree de 3 níveis pode suportar até 6464*64/4=65536 GPUs. Na prática, a configuração inclui 64 SUs, totalizando 16384 GPUs.

Soluções de cluster de treinamento de GPU da indústria
Topologia de árvore gorda de dois níveis
A topologia Fat-Tree comum sem bloqueio de dois níveis (Spine-Leaf) é predominante para máquinas de treinamento de 8 GPU. Dentro de uma única máquina, as 8 GPUs estão totalmente interligadas via NVLink + NVSwitch, com largura de banda de comunicação significativamente maior que a largura de banda da rede. Portanto, é prática padrão conectar a NIC de cada GPU a switches diferentes:
Cada grupo contém 8 Leaf Switches, correspondendo às 8 GPUs de uma máquina.
Supondo que um switch Leaf tenha 128 portas, 64 portas se conectam às NICs das GPUs correspondentes, resultando em 64*8=512 GPUs por grupo. O Leaf Switch 1 conecta todas as NICs das GPUs do Node 1 e assim por diante.
Esse recurso pode ser aproveitado ao projetar estratégias de treinamento distribuído.
Para obter malha completa entre Spine e Leaf Switches, cada Leaf Switch se conecta a um Spine Switch. Assim, existem 64 Spine Switches, e cada Spine Switch se conecta a todos os 128 Leaf Switches. Isso requer 16 grupos.
Em resumo, um máximo de 192 switches com 128 portas cada podem suportar 512*16=8192 GPUs.

Topologia de árvore gorda de dois níveis FiberMall
A solução padrão FiberMall para Fat-Tree de dois níveis é semelhante à topologia descrita anteriormente. No entanto, ele usa switches de 64 portas.

Devido aos switches de 64 Gbps de 400 portas:
Leaf e Spine Switches são reduzidos pela metade (64 e 32, respectivamente).
O suporte de GPU é reduzido para 1/4, resultando em 2*(64/2)*(64/2)=2048 GPUs.
A contagem total de módulos ópticos inclui portas de switch e NICs de GPU: (64+32)*64+2048=8192.
Topologia de árvore gorda de três níveis
A topologia Fat-Tree comum sem bloqueio de três níveis (SuperSpine-Spine-Leaf) trata o Spine-Leaf de dois níveis como um Pod.
Como os Spine Switches também se conectam aos SuperSpine Switches, o número de grupos é reduzido pela metade. Cada Pod possui 64 Spine Switches, correspondendo a 4096 GPUs.
Vários Pods podem construir ainda 64 SuperSpine Fabrics, cada um totalmente interconectado com Spine Switches de diferentes Pods. Por exemplo, com 8 pods, cada Fabric precisa de apenas 4 switches SuperSpine de 128 portas.
A configuração para 8 pods inclui:
- Total de GPUs: 4096*8=32768
- Interruptores SuperSpine: 64*4=256
- Interruptores de coluna: 64*8=512
- Interruptores de folha: 64*8=512
- Total de interruptores: 256+512+512=1280
- Módulos ópticos totais: 1280*128+32768=196608
O máximo teórico suporta 128 Pods, correspondendo a:
- GPUs: 4096128=524288=2(128/2)^3
- SuperSpine Switches: 64*64=4096=(128/2)^2
- Spine Switches: 64128=8192=2(128/2)^2
- Leaf Switches: 64128=8192=2(128/2)^2
- Total Switches: 4096+8192+8192=20480=5*(128/2)^2
Produtos relacionados:
-
Compatível com NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850nm 30m em OM3/50m em OM4 MTP/MPO-12 Multimode FEC Optical Transceiver Module $650.00
-
Compatível com NVIDIA MMA4Z00-NS-FLT 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $850.00
-
Compatível com NVIDIA MMA4Z00-NS 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $750.00
-
Compatível com NVIDIA MMS4X00-NM 800Gb/s Porta dupla OSFP 2x400G PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $1100.00
-
Compatível com NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $1200.00
-
Compatível com NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $800.00
-
Mellanox MMA1T00-HS compatível com 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 Módulo transceptor óptico $200.00
-
NVIDIA MFP7E10-N010 compatível com 10 m (33 pés) 8 fibras baixa perda de inserção fêmea para fêmea MPO cabo tronco polaridade B APC para APC LSZH multimodo OM3 50/125 $47.00
-
Compatível com NVIDIA MCP7Y00-N003-FLT 3m (10 pés) 800G OSFP de porta dupla a 2x400G OSFP plano superior InfiniBand NDR Breakout DAC $275.00
-
NVIDIA MCP7Y70-H002 compatível com 2m (7 pés) 400G Twin-port 2x200G OSFP para 4x100G QSFP56 Passivo Breakout Direct Attach Cabo de cobre $155.00
-
NVIDIA MCA4J80-N003-FTF compatível com 3m (10 pés) 800G de porta dupla 2x400G OSFP a 2x400G OSFP InfiniBand NDR cabo de cobre ativo, parte superior plana em uma extremidade e parte superior com aletas na outra $600.00
-
NVIDIA MCP7Y10-N002 compatível com 2m (7 pés) 800G InfiniBand NDR OSFP de porta dupla para 2x400G QSFP112 Breakout DAC $200.00