Configuração de hardware e design de rede para clusters de GPU em grande escala

BACKGROUND

Desde que a OpenAI introduziu o ChatGPT, os grandes modelos de linguagem (LLMs) ganharam atenção significativa e rápido desenvolvimento. Muitas empresas estão investindo em pré-treinamento LLM para acompanhar esta tendência. No entanto, treinar um LLM em escala 100B normalmente requer recursos computacionais substanciais, como clusters equipados com milhares de GPUs. Por exemplo, o modelo da série Falcon treina um modelo 180B em um cluster de GPU 4096 A100, levando quase 70 dias para tokens de 3.5T. À medida que a escala de dados continua a crescer, a demanda por poder computacional aumenta. A Meta, por exemplo, treinou seu modelo da série LLaMA3 usando tokens de 15T em dois clusters H24 de 100K.

Neste artigo, investigamos os componentes e configurações envolvidos na construção de clusters de GPU em grande escala. Abordaremos diferentes tipos de GPU, configurações de servidor, dispositivos de rede (como placas de rede, switches e módulos ópticos) e topologias de rede de data center (por exemplo, 3 camadas, Fat-Tree). Especificamente, exploraremos as configurações DGX A100 SuperPod e DGX H100 SuperPod da NVIDIA, bem como topologias comuns usadas em clusters multi-GPU.

Tenha em mente que construir clusters de GPU ultragrandes é uma tarefa extremamente complexa e este artigo apenas arranha a superfície. Na implantação prática de cluster, redes de armazenamento, redes de gerenciamento e outros aspectos entram em jogo, mas não entraremos nesses detalhes aqui. Além disso, os projetos de topologia de rede variam com base em diferentes cenários de aplicação. Nosso foco estará em topologias baseadas em árvore comumente usadas em clusters de GPU de IA em grande escala. Por último, não cobriremos componentes críticos como sistemas de energia e sistemas de refrigeração, que são essenciais para manter e operar clusters de GPU.

Componentes relevantes

GPUs

O gráfico abaixo ilustra Ampere, Hopper e as mais recentes GPUs da série Blackwell. Observe que a capacidade de memória, o poder computacional e os recursos do NVLink estão melhorando gradualmente:

A100 -> H100: A computação densa do FP16 aumenta mais de 3x, enquanto o consumo de energia aumenta apenas de 400W para 700W.

H200 -> B200: A computação densa do FP16 dobra, com o consumo de energia aumentando de 700W para 1000W.

A computação densa do B200 FP16 é aproximadamente 7x maior que a do A100, enquanto o consumo de energia é apenas 2.5x maior.

As GPUs Blackwell suportam precisão FP4, oferecendo o dobro do poder de computação do FP8. Algumas comparações entre a arquitetura FP4 e FP8 da Hopper mostram uma aceleração ainda mais significativa.

Observe que o GB200 usa o chip B200 completo, enquanto o B100 e o B200 são versões reduzidas correspondentes.

GB200 usa o chip B200 completo

Servidores HGX

HGX é um servidor de alto desempenho da NVIDIA, geralmente contendo 8 ou 4 GPUs, normalmente emparelhado com CPUs Intel ou AMD, e usando NVLink e NVSwitch para obter interconexão completa (8 GPUs geralmente são o limite superior da interconexão total NVLink, exceto para NVL e SuperPod).

Do HGX A100 -> HGX H100 e HGX H200, o denso poder de computação do FP16 aumentou 3.3 vezes, enquanto o consumo de energia é inferior a 2 vezes.

De HGX H100 e HGX H200 -> HGX B100 e HGX B200, o denso poder de computação do FP16 aumentou cerca de 2 vezes, enquanto o consumo de energia é semelhante, no máximo não mais que 50%.

Deve notar-se que:

A rede do HGX B100 e HGX B200 basicamente não foi atualizada e a placa de rede IB ainda é de 8x400Gb/s.

HGX B100 e HGX B200

NVIDIA DGX e HGX são duas soluções de alto desempenho projetadas para aprendizado profundo, inteligência artificial e necessidades de computação em grande escala. No entanto, eles diferem em design e aplicações alvo:

DGX:

Voltado para consumidores em geral.

Fornece soluções plug-and-play de alto desempenho.

Vem com suporte de software abrangente, incluindo pilha de software, drivers e ferramentas de aprendizagem profunda da NVIDIA.

Normalmente sistemas pré-construídos e fechados.

HGX:

Voltado para provedores de serviços em nuvem e operadores de data centers em grande escala.

Adequado para construir soluções personalizadas de alto desempenho.

Oferece design modular, permitindo que os clientes personalizem o hardware com base em suas necessidades.

Geralmente fornecido como plataforma de hardware ou arquitetura de referência.

Em relação à rede:

Networking

Placas de rede

Vamos nos concentrar nas ConnectX-5/6/7/8, que são placas de rede de alta velocidade da Mellanox.

Essas placas suportam Ethernet e InfiniBand (IB).

O ConnectX-5 foi lançado em 2016, seguido pelo ConnectX-6 em 2020, o ConnectX-7 em 2022 e o ConnectX-8, que foi apresentado por Jensen Huang durante a conferência GTC de 2024 (embora especificações detalhadas ainda não estejam disponíveis).

Cada geração praticamente duplica a largura de banda total e estima-se que a próxima geração atinja 1.6 Tbps.

Placas de rede

Switches

A NVIDIA também oferece switches para Ethernet e InfiniBand (IB). Esses switches geralmente possuem dezenas ou até centenas de portas, correspondendo a um throughput total (capacidade de comutação bidirecional) calculado como a largura de banda máxima multiplicada pelo número de portas, com o “2” indicando comunicação bidirecional.

Switches Ethernet Série Spectrum-X

Switches Ethernet Série Spectrum-X

Switches InfiniBand Série Quantum-X:

Esses switches oferecem taxa de transferência de 400 Gb/s.

Eles se destacam em computação de alto desempenho (HPC), IA e infraestruturas de nuvem em hiperescala.

Os switches Quantum-X oferecem desempenho robusto, minimizando a complexidade e o custo.

Além dos switches Mellanox, muitos data centers agora adotam switches modulares (como a série Arista 7800) juntamente com opções tradicionais. Por exemplo, a Meta construiu recentemente dois clusters de GPU com GPUs 24K H100, utilizando switches Arista 7800. A série 7800 inclui switches modulares como o 7816LR3 e o 7816R3, que podem fornecer 576 portas com largura de banda de alta velocidade de 400G. Esses switches usam barramentos internos eficientes ou backplanes de switch para transmissão e processamento de dados de baixa latência.

Interruptor Modular

Módulos Ópticos

Módulos ópticos desempenham um papel crucial na comunicação por fibra óptica. Eles convertem sinais elétricos em sinais ópticos, que são então transmitidos por fibras ópticas. Esses módulos oferecem maiores taxas de transmissão, maiores distâncias e maior imunidade à interferência eletromagnética. Normalmente, um módulo óptico consiste em um transmissor (para converter sinais elétricos em ópticos) e um receptor (para converter sinais ópticos em elétricos).

Módulos Ópticos

Dois tipos de interface de módulo óptico comumente usados ​​são:

SFP (Small Form-factor Pluggable): Os módulos SFP geralmente operam como canais de transmissão únicos (usando uma fibra ou um par de fibras).

QSFP (Quad Small Form-factor Pluggable): Os módulos QSFP suportam vários canais de transmissão. QSFP-DD (Double Density) aumenta ainda mais a densidade da porta usando 8 canais.

Recentemente, surgiu o pacote OSFP (Octal Small Form-factor Pluggable), projetado especificamente para cenários de alta largura de banda, como 400 Gbps e 800 Gbps. Os módulos OSFP possuem 8 canais e são ligeiramente maiores que o QSFP-DD. Eles não são compatíveis com interfaces SFP e QSFP e requerem conversores. O diagrama abaixo ilustra Módulos OSFP de 400 Gbps para diferentes distâncias de transmissão (100m, 500m, 2km e 10km).

Para várias distâncias, considere as seguintes opções de módulo:

Entre as camadas Core e Spine: Use 10km 400G LR4 ou 800G 2xLR4.

Entre as camadas Spine e Leaf: Opte por 2km 400G FR4.

Entre Leaf e ToR (topo do rack): Escolha módulos 500m 400G DR.

400G DR

Topologia de rede de data center (DCN)

Conceitos Básicos

Tráfego Norte-Sul: Refere-se ao tráfego proveniente de fora do data center. Inclui não apenas o tráfego relacionado à Internet, mas também o tráfego entre diferentes data centers.

Tráfego Leste-Oeste: Refere-se ao tráfego dentro do mesmo data center. Por exemplo, abrange a comunicação entre diferentes servidores dentro do data center. Nos data centers modernos, esse tipo de tráfego normalmente constitui uma parcela significativa, muitas vezes representando 70% a 80% do total.

Topologias comuns de rede de data center (DCN) são ilustradas no diagrama abaixo.

Rede de data centers

Arquitetura DCN multicamadas

As arquiteturas DCN multicamadas são predominantes, especialmente a arquitetura DCN de 3 camadas. Esta estrutura baseada em árvore gerencia principalmente o tráfego Norte-Sul e consiste em três camadas:

  • Camada central: A camada central normalmente compreende roteadores ou switches de alta capacidade.
  • Camada de Agregação (Camada de Distribuição): Responsável por conectar dispositivos da camada de acesso e fornecer roteamento, filtragem e engenharia de tráfego entre eles.
  • Camada de acesso: A camada de acesso é onde os dispositivos do usuário final se conectam diretamente à rede, facilitando a conexão dos dispositivos do usuário à rede do data center.
Arquitetura DCN multicamadas

Nesta arquitetura, assume-se geralmente que nem todos os dispositivos de acesso se comunicam simultaneamente com largura de banda máxima. Portanto, uma prática comum é alocar largura de banda total menor à medida que subimos na hierarquia. Por exemplo, a largura de banda total na camada de acesso pode ser de 20 Gbps, enquanto a largura de banda total da camada de distribuição pode ser de apenas 1 Gbps. Em casos extremos, se todos os dispositivos se comunicarem com largura de banda máxima, isso poderá levar a bloqueios, aumento de latência e atrasos imprevisíveis. Esta situação é muitas vezes referida como excesso de assinaturas, com a proporção (por exemplo, 20:1) indicando a taxa de excesso de assinaturas.

Dentro desta arquitetura, normalmente estão presentes mecanismos de redundância ou backup. Os switches entre as camadas central e de distribuição podem se interconectar, criando potencialmente loops. Para evitar loops, são usados ​​protocolos spanning tree (como o Spanning Tree Protocol, STP). No entanto, isso também pode resultar em desperdício de largura de banda devido à redundância.

Redes CLOS

As redes CLOS são uma estrutura de rede de comutação de vários estágios proposta inicialmente por Charles Clos em 1953. Embora originalmente usadas para centrais telefônicas, seus princípios e design são agora amplamente aplicados em data centers e computação de alto desempenho. A ideia central é fornecer serviços de rede de alta largura de banda e baixa latência por meio de uma estrutura interconectada de vários estágios, mantendo a escalabilidade.

Conforme mostrado no diagrama abaixo, as redes CLOS normalmente consistem em três camadas:

Camada de ingresso: Responsável por receber sinais de entrada externos.

Camada intermediária: conecta a camada de entrada aos switches da camada de saída.

Camada de Saída: Responsável por enviar dados ao destino final.

Redes CLOS

As redes CLOS oferecem os seguintes recursos e vantagens:

Sem bloqueio: Idealmente, um projeto de rede CLOS é sem bloqueio (sem convergência), o que significa que atrasos ou perdas na transmissão de dados não ocorrem devido a gargalos de comutação.

Escalabilidade: Ao adicionar mais camadas e switches, as redes CLOS podem ser facilmente dimensionadas para suportar conexões adicionais de entrada e saída sem sacrificar o desempenho.

Redundância: Os múltiplos caminhos do design permitem que os dados sejam transmitidos através de rotas alternativas mesmo se determinados switches ou conexões falharem, melhorando a confiabilidade geral da rede.

Flexibilidade: As redes CLOS suportam diversas configurações para acomodar diferentes tamanhos de sistema e requisitos de desempenho.

Topologia de árvore gorda

A arquitetura de rede de data center (DCN) Fat-Tree é uma forma especializada da rede CLOS. É amplamente utilizado em computação de alto desempenho e data centers de grande escala.

Charles Leiserson introduziu esta topologia de rede em 1985. Ao contrário das redes tradicionais em árvore de 3 camadas, a topologia Fat-Tree possui alguns recursos exclusivos:

Todos os switches de camada são substituídos por switches de baixo custo.

À medida que avançamos na hierarquia, os links “engrossam-se”, mantendo a largura de banda total consistente entre as camadas para evitar gargalos.

O número de switches e suas conexões são simétricos em cada camada, garantindo caminhos balanceados para dispositivos e minimizando pontos únicos de falha.

topologias de árvore gorda

Maximizando a largura de banda ponta a ponta: O objetivo principal da arquitetura Fat-Tree é maximizar a largura de banda ponta a ponta. Atinge uma taxa de excesso de assinaturas de 1:1, resultando em uma rede sem bloqueio.

Contagem de switches e configuração de portas:

Em uma topologia de rede Fat-Tree de portas K (onde K é o número de portas por switch), todos os switches normalmente têm o mesmo número de portas.

Vamos explorar as topologias Fat-Tree de 2 e 3 camadas:

Topologia de árvore gorda de 2 camadas:

Spine Switches: Switches K/2, cada um com portas K*(K/2).

Switches Leaf: Switches K, cada um com portas K*K.

Esta configuração permite um máximo de servidores KK/2 em uma rede sem bloqueio, exigindo switches de rede 3K/2.

Topologia de árvore gorda de 3 camadas:

Core Switches (Super Spine Switches): (K/2)^2 switches, cada um com K*(K/2)^2 portas.

Spine Switches: 2*(K/2)^2 switches, cada um com portas K2(K/2)^2.

Switches Leaf: 2*(K/2)^2 switches, cada um com portas K2(K/2)^2.

Este design suporta um máximo de servidores K2(K/2)^2/2 = K^3/4 em uma rede sem bloqueio, exigindo 5*K^2/4 switches.

Topologias Fat-Tree de 2 e 3 camadas

Para topologias Fat-Tree de 2 e 3 camadas, as contagens de switches e as configurações de portas seguem padrões específicos.

Observe que existem variações na terminologia (por exemplo, Fat-Tree vs. Spine-Leaf), mas consideraremos todas elas sob o guarda-chuva Fat-Tree.

SuperPod NVIDIA DGX-A100

Sistema DGX A100

O Sistema DGX A100, conforme mostrado no diagrama abaixo, é uma configuração 6U com os seguintes componentes:

8 GPUs A100: Cada GPU oferece 600 GB/s de largura de banda NVLink.

Largura de banda NVSwitch total: O sistema atinge uma largura de banda NVSwitch total de 4.8 TB/s, com 640 GB de memória HBM2 (80 GB por GPU).

Conexões de computação (IB): Existem 8 placas de rede ConnectX-6, fornecendo uma largura de banda total combinada de 8 * 200 Gbps.

Conexões de armazenamento (IB): 2 conexões para armazenamento.

Conexão In-Band (Ethernet): Usada para comunicação interna.

Conexão Out-Band (Ethernet): Para fins de gerenciamento.

Sistema DGC A100

Notavelmente, a largura de banda do NVLink é medida em bytes, enquanto a largura de banda da rede normalmente usa bits. Neste sistema, a largura de banda interna atinge 4.8 TB/s, enquanto a largura de banda geral da rede é de 1.6 Tbps, resultando em uma diferença de 24 vezes.

Sistema DGX A100

SuperPod SU

O SuperPod SU (Unidade Escalável), representado na figura, serve como bloco de construção fundamental para a construção do DGX-SuperPod-A100. Aqui estão seus principais componentes:

Cada SU inclui 5 racks de computação e 1 rack de rede Leaf.

Cada Compute Rack abriga 4 sistemas DGX A100 e 2 unidades de distribuição de energia (PDUs) 3U, totalizando 32 GPUs A100 por Compute Rack. Assim, uma SU compreende 160 GPUs A100.

O Leaf Network Rack contém 8 switches de computação (1U) e 2 switches de armazenamento (1U).

Compute Switches utilizam switches IB QM8790 de 200 Gb/s, resultando em um total de 320 portas:

160 portas conectam-se às placas de rede ConnectX-6 nos Compute Racks, fornecendo 200 Gbps por GPU.

As 160 portas restantes se conectam ao Spine Rack.

Elevações de rack SU

Alguns cenários também podem usar switches Top-of-Rack (ToR) dentro de um gabinete para um cabeamento mais simples. No entanto, esta abordagem pode levar ao desperdício portuário. Por exemplo, devido a restrições de energia e desafios de refrigeração, os servidores GPU são frequentemente limitados a um único gabinete, reduzindo o número de placas de rede.

Servidores GPU

Observe que, embora alguns cenários industriais possam usar menos placas de rede (por exemplo, 4×200 Gbps) em um sistema 8*A100, a topologia geral da rede permanece semelhante.

Rack de coluna

Conforme mostrado na figura, um Spine Rack contém 20 switches de computação de 1U, especificamente switches IB QM8790 de 200 Gb/s, totalizando 800 portas. O switch fora de banda e o switch dentro da banda restantes podem ser usados ​​para gerenciamento de rede.

elevações de rack de coluna

DGX SuperPod 100 nós

A figura abaixo ilustra um DGX-SuperPOD de 100 nós, compreendendo 5 SUs e um Spine Rack adicional.

Cada SU inclui 8 switches Leaf Compute (QM7890, 200 Gbps).

As 8 NICs ConnectX-6 de cada Node se conectam a 8 Leaf Compute Switches, com cada ConnectX-6 correspondendo a 1 GPU.

Os Leaf Compute Switches têm 20 portas conectando-se a 20 nós dentro do SU e 20 portas adicionais conectando-se aos 20 Spine Compute Switches no Spine Rack.

computar topologia de malha para stsyem de 100 nós

Esta topologia atinge uma rede sem bloqueio para 800 GPUs (quaisquer duas GPUs podem se comunicar):

GPUs de diferentes SUs se conectam via: ConnectX-6 -> Leaf Switch -> Spine Switch -> Leaf Switch -> ConnectX-6.

GPUs dentro da mesma SU, mas nós diferentes, conectam-se via: ConnectX-6 -> Leaf Switch -> ConnectX-6.

GPUs dentro do mesmo Node se comunicam via NVLink.

O limite prático para 800 GPUs (cada GPU corresponde a uma porta NIC de 200 Gbps) usando QM8790 é uma rede Fat-Tree de 2 níveis. Além de 800 GPUs, seria necessária uma Fat-Tree de 3 níveis, permitindo até 16,000 GPUs.

DGX SuperPod 140 nós

Em um sistema de 100 nós em que todas as portas do Compute Switch estão ocupadas, a expansão para mais GPUs requer a transição de switches de 2 camadas para switches de 3 camadas. Isso envolve adicionar uma camada Core Compute Switch, ainda usando QM8790 a 200 Gbps.

A figura mostra um SuperPod de 140 nós com 7 SUs, totalizando 56 Leaf Switches. Idealmente, 56 Leaf Switches exigiriam 56 Spine Switches e 28 Core Switches. No entanto, o design real usa 80 Spine Switches, organizados em 8 Grupos (SG), cada um com 10 Spine Switches, e cada Grupo Central (CG) com 14 Core Switches. Essa topologia Fat-Tree simétrica simplifica o gerenciamento.

Cada Leaf Switch em uma SU se conecta a 10 Spine Switches no SG correspondente (20 portas por Leaf Switch). Os Spine Switches alternam conexões com os Core Switches (posições ímpares para Core Switches ímpares, posições pares para Core Switches pares).

Cada Core Switch se conecta a 40 Spine Switches.

SuperPOD GHX de 140 nós

Esta configuração suporta um cluster de GPU 140*8=1120, com cada GPU tendo uma NIC ConnectX-6 de 200 Gbps.

rack de armazenamento

Conforme mostrado na figura abaixo, um Rack de Armazenamento contém 4 Switches de Armazenamento, também switches IB QM8790 de 200 Gbps, totalizando 160 portas. As unidades de armazenamento correspondentes também estão presentes no rack.

elevações de rack de armazenamento

Tecido de armazenamento DGX SuperPod

A figura ilustra o Storage Fabric para a configuração de 140 nós. É composto por 18 interruptores de folha. Cada SuperPod SU (unidade escalável) contém 2 racks de rede Leaf e 1 rack de armazenamento. Além disso, existem 8 interruptores de coluna.

topologia de malha de armazenamento para sistema de 140 nós

Configurações Adicionais

A Tabela 3 fornece detalhes sobre as configurações de computação para diferentes nós.

computar switch de malha e contagens de cabos

A Tabela 4 descreve as configurações de armazenamento.

contagens de tecido de armazenamento

SuperPod NVIDIA DGX-H100

Sistema DGX H100

O Sistema DGX H100 (6U), conforme mostrado, inclui:

  • 8 GPUs H100, cada uma com largura de banda NVLink de 900 GB/s.
  • Um total de largura de banda NVSwitch de 7.2 TB/s e 640 GB de memória HBM3 (80 GB por GPU).
  • 4 portas OSFP (IB) correspondentes a 8 NICs ConnectX-7, fornecendo largura de banda de 8*400 Gbps.
  • Slots 1 e 2 com 2 NICs ConnectX-7, oferecendo largura de banda de 2*400 Gbps.
  • Uma conexão em banda (Ethernet).
Sistema DGX H100
O sistema DGX H100 (6U)

Todas as 8 GPUs estão totalmente interconectadas via NVSwitch. A largura de banda interna chega a 7.2 TB/s, enquanto a largura de banda geral da rede é de 3.2 Tbps, uma diferença de 22.5 vezes.

SuperPod SU

A Figura 2 mostra o bloco de construção fundamental do DGX-SuperPod-H100, conhecido como SuperPod SU:

  • Cada SU contém 8 racks de computação, com cada rack fornecendo 40 kW.
  • Cada Compute Rack abriga 4 sistemas DGX H100 e 3 PDUs (unidades de distribuição de energia), resultando em 32 GPUs H100 por Compute Rack. Assim, uma SU acomoda 256 GPUs H100.
layout completo de rack SU único

Rack de gerenciamento

No DGX SuperPod correspondente às GPUs H100, a NVIDIA oferece um Management Rack similar aos Spine e Storage Racks da série A100. A Figura 3 fornece um exemplo (configurações específicas podem variar):

  • Interruptores de computação de 32 folhas (QM9700) oferecem 64 portas de 400 Gbps cada. Teoricamente, há 1024 portas de 400 Gbps disponíveis para conectar às NICs ConnectX-7 nos nós. As 1024 portas restantes conectam-se precisamente a 16 Spine Compute Switches, alcançando uma rede sem bloqueio para 1024 GPUs.
  • 16 Spine Compute Switches (também QM9700) conectam-se a metade das portas em 32 Leaf Compute Switches.
  • 8 switches de armazenamento Leaf (QM9700) fazem parte da configuração.
  • 4 Spine Storage Switches (QM9700) completam a configuração.
configuração do rack de gerenciamento

DGX SuperPod 127 nós

A Figura 5 ilustra um DGX SuperPod de 127 nós com 4 unidades escalonáveis ​​(SUs) e um rack de gerenciamento associado. Em teoria, o Management Rack pode conectar-se aos 128 nós nas 4 SUs. No entanto, devido a alguns switches Leaf estarem conectados ao Unified Fabric Manager (UFM), o número real de nós é 127.

127nó

Configurações Adicionais

Conforme mostrado na Tabela 3, usando switches QM9700, um Fat-Tree de 2 níveis pode alcançar uma rede sem bloqueio para até 6464/2=2048 GPUs (correspondendo a 8 SUs). Um Fat-Tree de 3 níveis pode suportar até 6464*64/4=65536 GPUs. Na prática, a configuração inclui 64 SUs, totalizando 16384 GPUs.

grandes contagens de componentes de superpod

Soluções de cluster de treinamento de GPU da indústria

Topologia de árvore gorda de dois níveis

A topologia Fat-Tree comum sem bloqueio de dois níveis (Spine-Leaf) é predominante para máquinas de treinamento de 8 GPU. Dentro de uma única máquina, as 8 GPUs estão totalmente interligadas via NVLink + NVSwitch, com largura de banda de comunicação significativamente maior que a largura de banda da rede. Portanto, é prática padrão conectar a NIC de cada GPU a switches diferentes:

Cada grupo contém 8 Leaf Switches, correspondendo às 8 GPUs de uma máquina.

Supondo que um switch Leaf tenha 128 portas, 64 portas se conectam às NICs das GPUs correspondentes, resultando em 64*8=512 GPUs por grupo. O Leaf Switch 1 conecta todas as NICs das GPUs do Node 1 e assim por diante.

Esse recurso pode ser aproveitado ao projetar estratégias de treinamento distribuído.

Para obter malha completa entre Spine e Leaf Switches, cada Leaf Switch se conecta a um Spine Switch. Assim, existem 64 Spine Switches, e cada Spine Switch se conecta a todos os 128 Leaf Switches. Isso requer 16 grupos.

Em resumo, um máximo de 192 switches com 128 portas cada podem suportar 512*16=8192 GPUs.

Topologia de árvore gorda de dois níveis

Topologia de árvore gorda de dois níveis FiberMall

A solução padrão FiberMall para Fat-Tree de dois níveis é semelhante à topologia descrita anteriormente. No entanto, ele usa switches de 64 portas.

Topologia de árvore gorda de dois níveis FiberMall

Devido aos switches de 64 Gbps de 400 portas:

Leaf e Spine Switches são reduzidos pela metade (64 e 32, respectivamente).

O suporte de GPU é reduzido para 1/4, resultando em 2*(64/2)*(64/2)=2048 GPUs.

A contagem total de módulos ópticos inclui portas de switch e NICs de GPU: (64+32)*64+2048=8192.

Topologia de árvore gorda de três níveis

A topologia Fat-Tree comum sem bloqueio de três níveis (SuperSpine-Spine-Leaf) trata o Spine-Leaf de dois níveis como um Pod.

Como os Spine Switches também se conectam aos SuperSpine Switches, o número de grupos é reduzido pela metade. Cada Pod possui 64 Spine Switches, correspondendo a 4096 GPUs.

Vários Pods podem construir ainda 64 SuperSpine Fabrics, cada um totalmente interconectado com Spine Switches de diferentes Pods. Por exemplo, com 8 pods, cada Fabric precisa de apenas 4 switches SuperSpine de 128 portas.

A configuração para 8 pods inclui:

  • Total de GPUs: 4096*8=32768
  • Interruptores SuperSpine: 64*4=256
  • Interruptores de coluna: 64*8=512
  • Interruptores de folha: 64*8=512
  • Total de interruptores: 256+512+512=1280
  • Módulos ópticos totais: 1280*128+32768=196608

O máximo teórico suporta 128 Pods, correspondendo a:

  • GPUs: 4096128=524288=2(128/2)^3
  • SuperSpine Switches: 64*64=4096=(128/2)^2
  • Spine Switches: 64128=8192=2(128/2)^2
  • Leaf Switches: 64128=8192=2(128/2)^2
  • Total Switches: 4096+8192+8192=20480=5*(128/2)^2

Deixe um comentário

Voltar ao Topo