Os data centers tradicionais passaram por uma transição de uma arquitetura de três camadas para uma arquitetura leaf-spine, principalmente para acomodar o crescimento do tráfego leste-oeste dentro do data center. À medida que o processo de migração de dados para a nuvem continua a acelerar, a escala dos data centers de computação em nuvem continua a se expandir. Aplicativos como virtualização e sistemas hiperconvergentes adotados nesses data centers geraram um aumento significativo no tráfego leste-oeste – de acordo com dados anteriores da Cisco, em 2021, o tráfego interno do data center foi responsável por mais de 70% do tráfego relacionado ao data center .
Tomando como exemplo a transição da arquitetura tradicional de três camadas para a arquitetura leaf-spine, o número de módulos ópticos necessários em uma arquitetura de rede leaf-spine pode aumentar em até dezenas de vezes.

Requisitos de arquitetura de rede para clusters de IA em grande escala
Considerando a necessidade de aliviar gargalos de rede, a arquitetura de rede para clusters de IA em larga escala deve atender aos requisitos de alta largura de banda, baixa latência e transmissão sem perdas. Os centros de computação de IA geralmente adotam uma arquitetura de rede Fat-Tree, que apresenta uma rede sem bloqueio. Além disso, para evitar gargalos de interconexão entre nós, a NVIDIA emprega NVLink para permitir comunicação eficiente entre GPUs. Comparado ao PCIe, o NVLink oferece maiores vantagens de largura de banda, servindo como base para a arquitetura de memória compartilhada da NVIDIA e criando uma nova demanda por interconexões ópticas entre GPUs.
Estrutura de rede A100 e requisitos de módulo óptico
A estrutura básica de implantação para cada SuperPOD DGX A100 consiste em 140 servidores (cada servidor com 8 GPUs) e switches (cada switch com 40 portas, cada porta em 200G). A topologia de rede é uma estrutura Fat-Tree InfiniBand (IB). Em relação ao número de camadas de rede, uma estrutura de rede de três camadas (switch server-leaf-spine switch-core switch) é implantada para 140 servidores, sendo o número correspondente de cabos para cada camada 1120-1124-1120, respectivamente. Supondo que cabos de cobre sejam usados entre servidores e switches, e com base em um cabo correspondente a dois módulos ópticos de 200G, a proporção GPU:switch:módulo óptico é 1:0.15:4. Se uma rede totalmente óptica for usada, a proporção se tornará GPU:switch:módulo óptico = 1:0.15:6.


Estrutura de rede H100 e requisitos de módulo óptico
A estrutura básica de implantação para cada SuperPOD DGX H100 consiste em 32 servidores (cada servidor com 8 GPUs) e 12 switches. A topologia de rede é uma estrutura IB Fat-Tree, com cada porta do switch operando a 400G e capaz de ser combinada em uma porta de 800G. Para um cluster 4SU, assumindo uma rede totalmente óptica e uma arquitetura Fat-Tree de três camadas, Módulos ópticos 400G são usados entre servidores e switches leaf, enquanto módulos ópticos 800G são usados entre switches leaf-spine e Spine-core. O número de módulos ópticos de 400G necessários é 3284=256, e o número de módulos ópticos de 800G é 3282.5=640. Portanto, a proporção de GPU:switch:módulo óptico 400G:módulo óptico 800G é 1:0.08:1:2.5.

Para um único cluster GH200, que consiste em 256 GPUs de superchip interconectadas usando uma estrutura de rede de árvore gorda de duas camadas, ambas as camadas são construídas com switches NVLink. A primeira camada (entre servidores e switches de Nível 1) utiliza 96 switches, enquanto o Nível 2 emprega 36 switches. Cada switch NVLink possui 32 portas, com cada porta tendo uma velocidade de 800G. Dado que a largura de banda agregada bidirecional do NVLink 4.0 é de 900 GB/s e a unidirecional é de 450 GB/s, a largura de banda total de uplink para a camada de acesso em um cluster de 256 placas é de 115,200 GB/s. Considerando a arquitetura fat-tree e a taxa de transmissão do módulo óptico de 800G (100GB/s), o requisito total para módulos ópticos de 800G é de 2,304 unidades. Portanto, dentro do cluster GH200, a proporção de GPUs para módulos ópticos é de 1:9. Ao interconectar vários clusters GH200, referenciando a arquitetura H100, sob uma estrutura de rede de três camadas, a demanda por GPUs para módulos ópticos 800G é de 1:2.5; em uma rede de duas camadas, é 1:1.5. Assim, ao interconectar vários GH200s, o limite superior para a proporção de GPU para módulo óptico de 800G é 1:(9+2.5) = 1:11.5.


Em resumo, à medida que os clusters computacionais continuam a melhorar o desempenho da rede, a procura por módulos ópticos de alta velocidade torna-se mais elástica. Tomando os clusters NVIDIA como exemplo, a taxa de interface da placa de rede adaptada pela placa aceleradora está intimamente relacionada à largura de banda do protocolo de rede. A GPU A100 suporta PCIe 4.0, com largura de banda unidirecional máxima de 252 Gb/s, portanto, a taxa da placa de rede PCIe deve ser inferior a 252 Gb/s, emparelhando com placas de rede Mellanox HDR 200 Gb/s Infiniband. A GPU H100 suporta PCIe 5.0, com largura de banda unidirecional máxima de 504 Gb/s, emparelhando-se assim com placas de rede Mellanox NDR 400 Gb/s Infiniband. Portanto, atualizando de A100 para H100, a demanda de módulo óptico correspondente aumenta de 200G para 800G (duas portas 400G combinadas em uma 800G); enquanto o GH200 usa NVLink para conectividade entre placas, com largura de banda unidirecional aumentada para 450 GB/s, aumentando ainda mais a elasticidade para a demanda de 800G. Suponha que o cluster H100 seja atualizado de PCIe 5.0 para PCIe 6.0, com a largura de banda unidirecional máxima aumentada para 1024 Gb/s. Nesse caso, a taxa da placa de rede da camada de acesso pode ser aumentada para 800G, o que significa que a camada de acesso pode usar módulos ópticos de 800G, e a elasticidade da demanda por uma única placa correspondente a módulos ópticos de 800G no cluster dobraria.
A arquitetura e aplicação de cluster computacional da Meta lançou anteriormente o projeto “Research SuperCluster” para treinar o modelo LLaMA. Na segunda fase do projeto RSC, a Meta implantou um total de 2,000 servidores A100, contendo 16,000 GPUs A100. O cluster inclui 2,000 switches e 48,000 links, correspondendo a uma arquitetura de rede CLOS de três camadas. Se for adotada uma rede óptica completa, ela corresponderá a 96,000 módulos ópticos de 200G, o que significa que a proporção de GPUs A100 para módulos ópticos é de 1:6, consistente com a arquitetura A100 calculada anteriormente.

A Meta implementou uma infraestrutura de treinamento para LLaMA3 usando GPUs H100, que inclui clusters com InfiniBand e Ethernet, capazes de suportar até 32,000 GPUs. Para a solução Ethernet, segundo informações divulgadas pela Meta, o cluster computacional ainda emprega uma arquitetura de rede convergente leaf-spine. Cada rack contém 2 servidores conectados a 1 switch Top-of-Rack (TOR) (usando Wedge 400), com um total de 252 servidores em um cluster. Os switches de cluster usam switches de rack Minipack2 OCP, com 18 switches de cluster no total, resultando em uma taxa de convergência de 3.5:1. Existem 18 switches de camada de agregação (usando Arista 7800R3), com taxa de convergência de 7:1. O cluster usa principalmente módulos ópticos de 400G. Do ponto de vista da arquitetura de cluster, a solução Ethernet ainda requer mais avanços no nível do protocolo para promover a construção de uma rede sem bloqueio, com atenção ao progresso de organizações como a Ethernet Alliance.
A AWS lançou a segunda geração de EC2 Ultra Clusters, que inclui a GPU H100 e sua solução proprietária Trainium ASIC. As instâncias P2 do AWS EC5 Ultra Clusters (ou seja, a solução H100) fornecem uma largura de banda de rede agregada de 3200 Gbps e oferecem suporte a GPUDirect RDMA, com capacidade máxima de rede de 20,000 GPUs. As instâncias Trn1n (solução proprietária da Trainium) apresentam um cluster de 16 placas que fornece 1600 Gbps de largura de banda de rede agregada, suportando até 30,000 ASICs em rede, correspondendo a 6 EFlops de poder computacional.


A interconexão entre placas AWS EC2 Ultra Clusters utiliza NVLink (para a solução H100) e NeuronLink (para a solução Trainium), com interconexão de cluster utilizando seu adaptador de rede EFA proprietário. Comparado à solução da Nvidia, o cluster Trainium ASIC proprietário da AWS tem uma largura de banda de uplink estimada de 100 G por placa (largura de banda agregada de 1600 G / 16 placas = 100 G), portanto, atualmente não há demanda por 800G módulos ópticos na arquitetura da AWS.
O cluster de computação mais recente do Google é composto por matrizes TPU configuradas em um toro tridimensional. Um toro unidimensional corresponde a cada TPU conectado a dois TPUs adjacentes; um toro bidimensional é composto por dois anéis ortogonais, correspondendo a cada TPU conectado a quatro TPUs adjacentes; O TPUv4 do Google representa um toro tridimensional, com cada TPU conectado a seis TPUs adjacentes.


Com base nisso, uma estrutura de rede 3D de 444=64 TPUs é construída dentro de cada gabinete. A parte externa da estrutura 3D se conecta ao OCS, com uma interligação de 4096 TPUs correspondentes a 64 gabinetes e 48 switches OCS, o que equivale a 48*64=6144 módulos ópticos. Internamente, são utilizadas conexões DAC (18000 cabos), resultando em uma relação TPU/módulo óptico de 1:1.5. Na solução OCS, os módulos ópticos precisam adotar uma solução de multiplexação por divisão de comprimento de onda e adicionar circuladores para reduzir o número de fibras, sendo que a solução de módulo óptico possui recursos customizados (800G VFR8).
Produtos relacionados:
-
Compatível com NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $1200.00
-
Compatível com NVIDIA MMA4Z00-NS-FLT 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $850.00
-
Compatível com NVIDIA MMS4X00-NM 800Gb/s Porta dupla OSFP 2x400G PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $1100.00
-
Compatível com NVIDIA MMA4Z00-NS 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $750.00
-
NVIDIA MMS1Z00-NS400 Compatível 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12 com Módulo Transceptor Óptico FEC $800.00
-
Compatível com NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $800.00
-
Compatível com NVIDIA MMA1Z00-NS400 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC Módulo transceptor óptico $650.00
-
Compatível com NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850nm 30m em OM3/50m em OM4 MTP/MPO-12 Multimode FEC Optical Transceiver Module $650.00
-
OSFP-FLT-800G-PC2M 2m (7 pés) 2x400G OSFP a 2x400G OSFP PAM4 InfiniBand NDR Passive Direct Attached Cable, parte superior plana em uma extremidade e parte superior plana na outra $300.00
-
OSFP-800G-PC50CM 0.5 m (1.6 pés) 800G Porta dupla 2x400G OSFP a 2x400G OSFP InfiniBand NDR Passivo Cabo de cobre de conexão direta $105.00
-
OSFP-800G-AC3M 3m (10 pés) 800G Porta dupla 2x400G OSFP a 2x400G OSFP InfiniBand NDR Cabo de cobre ativo $600.00
-
OSFP-FLT-800G-AC3M 3m (10 pés) 800G de porta dupla 2x400G OSFP a 2x400G OSFP InfiniBand NDR Cabo de cobre ativo, parte superior plana em uma extremidade e parte superior plana na outra $600.00