Liberando desempenho: o poder do InfiniBand

O poder computacional efetivo de um cluster pode ser dividido em utilização da GPU e aceleração linear do cluster. A utilização da GPU é influenciada por fatores como arquitetura do chip, tecnologia de processo, memória, gargalos de E/S, largura de banda de interconexão entre placas, topologia e consumo de energia. Por outro lado, a 'aceleração linear do cluster' depende das capacidades de comunicação dos nós, estruturas de treinamento paralelas e agendamento de recursos.

CPU

Projetar uma solução de rede de cluster eficiente é crucial para obter baixa latência, alta largura de banda e comunicação entre nós desbloqueada. Isso reduz a sobrecarga de comunicação entre várias máquinas e GPUs, melhorando, em última análise, o tempo efetivo de computação da GPU (tempo de computação da GPU/tempo geral de treinamento). Com base no 'Livro Branco sobre Evolução de Rede para Grandes Modelos de IA' do China Mobile Research Institute, os grandes modelos de IA impõem novos requisitos para a infraestrutura de rede:

  1. Redes de escala ultralarga: modelos supergrandes de IA com contagens de parâmetros que chegam a bilhões a trilhões exigem um poder computacional extremamente alto. Conseqüentemente, isso requer uma grande quantidade de hardware e capacidade de rede escalável. De acordo com o 'Livro Branco sobre Novas Tecnologias de Computação Inteligente para Clusters de Ultra-Mil Cartões', alcançar eficiência computacional ideal, capacidades de processamento de dados, interconexão em nível de hardware para milhares de cartões e disponibilidade de rede torna-se um tópico crítico para centros de computação de IA.
topo
  • Requisitos de largura de banda ultra-alta: em clusters multi-GPU, a comunicação intra-servidor e entre servidores é inevitável. A comunicação intra-servidor envolve todos os dados de comunicação coletiva gerados pelo paralelismo do modelo, atingindo centenas de gigabytes. Assim, a largura de banda e o método de comunicação intra-GPU impactam significativamente o tempo de conclusão do fluxo de ponta a ponta. A comunicação entre servidores, em modos como paralelismo de pipeline, paralelismo de dados e paralelismo de tensor, também atinge volumes de dados semelhantes. Padrões complexos de comunicação coletiva envolvem simultaneamente comunicação muitos para um e um para muitos. Portanto, interconexões de alta velocidade entre GPUs são essenciais para largura de banda de porta única, links entre nós disponíveis e largura de banda geral da rede.
  • Latência ultrabaixa: a latência da comunicação de dados consiste em componentes estáticos e dinâmicos. A latência estática depende das capacidades do chip de encaminhamento e da distância de transmissão. Quando a topologia da rede e o volume de dados de comunicação são fixos, esta parte da latência permanece relativamente constante. A latência dinâmica inclui atraso no enfileiramento interno do switch e atraso na retransmissão por perda de pacotes, normalmente causado por congestionamento da rede, perda de pacotes e jitter.
  • Estabilidade ultra-alta e implantação automatizada: Com um aumento significativo no número de placas, a estabilidade da rede se torna o “elo mais fraco” nas redes de cluster. Falhas de rede e flutuações de desempenho afetam a conectividade entre nós e a utilização de recursos.

RDMA (Remote Direct Memory Access) pode reduzir a latência de comunicação ponta a ponta entre várias máquinas e GPUs. Nas redes tradicionais, a transferência de dados envolve várias etapas: primeiro, copiar os dados do kernel do sistema de origem para a pilha da rede e depois transmiti-los pela rede. Finalmente, no final do recebimento, várias etapas copiam os dados de volta para o kernel do sistema de destino. O RDMA ignora o kernel do sistema operacional, permitindo que um host acesse diretamente a memória de outro host. Atualmente, as principais tecnologias RDMA são InfiniBand e RoCEv2 (RDMA over Converged Ethernet).

tradicional e rdma

InfiniBand (IB) e RDMA over Converged Ethernet (RoCE) são duas tecnologias de rede proeminentes. IB se destaca em baixa latência e alta largura de banda, enquanto Ethernet oferece abertura e custo-benefício. RoCE, sendo amplamente adotado e maduro, serve como uma pedra angular para interconectar diferentes sistemas com boa compatibilidade. Ele também se beneficia de vários fornecedores, resultando em vantagens de custo.

Por outro lado, o IB é especializado em interconexões de rede confiáveis, de alta largura de banda e baixa latência, comumente usadas em clusters HPC. No entanto, devido ao suporte limitado do fornecedor, o seu custo de implantação é superior ao RoCE.

RoCE é uma escolha sólida, enquanto InfiniBand se destaca como uma solução excepcional. Notavelmente, em clusters de supercomputação, o IB continua a ser uma interconexão popular e eficiente. No entanto, considerando o custo e a abertura, muitas empresas de computação em nuvem optam por switches Ethernet de código aberto em vez de soluções IB proprietárias. De acordo com Brian Barrett, engenheiro sênior da AWS, redes IB dedicadas podem ser como ilhas isoladas no vasto oceano de alocação e compartilhamento flexível de recursos em data centers em nuvem.

top500

Além disso, o Ultra Ethernet Consortium (UEC) foi estabelecido em 19 de julho de 2023, sob a liderança da Linux Foundation. Composta por provedores de nuvem (como MATA e Microsoft), fabricantes de equipamentos de rede (incluindo Broadcom, Cisco e HP) e empresas de semicondutores (AMD e Intel), a UEC visa fornecer uma pilha de comunicação aberta, interoperável e de alto desempenho baseada em Ethernet. . Esta iniciativa apoia as crescentes demandas de rede de IA e HPC.

O InfiniBand, com sua adoção antecipada do RDMA, oferece vantagens nativas como baixa latência, alta largura de banda e confiabilidade. Em 2015, a participação do InfiniBand na lista de supercomputadores TOP500 ultrapassou 50%, tornando-o a tecnologia de conexão interna preferida para supercomputadores.

Atualmente, o principal fornecedor da arquitetura InfiniBand (IB) é o Mellanox da Nvidia. A InfiniBand Trade Association (IBTA) foi inicialmente estabelecida por empresas líderes como Intel, Microsoft, SUN, IBM, Compaq e HP. Em maio de 1999, a Mellanox foi fundada em Israel por ex-funcionários da Intel e da Galileo Technology. Em 2001, lançaram seu primeiro produto IB. Contudo, em 2002, a Intel e a Microsoft, os gigantes originais no campo do IB, retiraram-se.

Em 2010, a Mellanox se fundiu com a Voltaire, deixando a Mellanox e a QLogic como os principais fornecedores de IB. Em 2012, a Intel voltou a entrar no campo IB ao adquirir o negócio de redes IB da QLogic por US$ 125 milhões. Pouco depois, a Intel também comprou o negócio de interconexão de supercomputação “Gemini” XT e “Aries” XC da Cray por US$ 140 milhões. Posteriormente, eles desenvolveram a nova tecnologia de interconexão Omni-Path baseada em IB e Aries.

Em 2013, a Mellanox continuou a se expandir adquirindo a Kotura, uma empresa de tecnologia fotônica de silício, e a IPtronics, um fabricante de chips de interconexão óptica paralela. Em 2015, a Mellanox detinha 80% do mercado global de InfiniBand. Em 2019, a Nvidia adquiriu com sucesso a Mellanox, superando os concorrentes Intel e Microsoft com um negócio de US$ 6.9 bilhões.

Agora, vamos dar uma olhada no produto GB200 de última geração da Nvidia:

  1. Configuração Interna de um Rack:

Cada rack contém 18 bandejas Compute (10 na parte superior, 8 na parte inferior) e 9 bandejas Switch.

Os cartuchos de cabos de cobre conectam bandejas de computação e bandejas de switch dentro do rack.

Utilizando um sistema de refrigeração líquida, o GB200 atinge 25 vezes mais desempenho em comparação com a infraestrutura refrigerada a ar do H100 com o mesmo consumo de energia.

Componentes da bandeja de computação:

Cada bandeja de computação individual inclui:

2 Superchips GB200 Grace Blackwell

4 Supernics ConnectX-800G InfiniBand

1 Unidade de Processamento de Dados (DPU) BlueField-3.

GB200

Superchip GB200 Grace Blackwell:

O GB200 Grace Blackwell Superchip compreende duas GPUs Blackwell e uma CPU Grace.

Cada GPU Blackwell individual tem o dobro do tamanho da arquitetura de GPU Hopper anterior.

No entanto, seu desempenho de IA (FP4) é cinco vezes maior que o do Hopper.

Especificamente, uma única GPU Blackwell atinge aproximadamente 20 petaFLOPS de desempenho de IA (FP8).

Possui 8x 24 GB de memória HBM3e com uma impressionante largura de banda de memória de 8 TB/s.

O GB200 possui 18 portas NVLink, conectando-se a 18 chips de switch NVLink, alcançando comunicação bidirecional a 1.8 TB/s.

ConnectX-800G InfiniBand Supernic:

O ConnectX-800G InfiniBand Supernic permite conexões de rede de 800 Gb/s ponta a ponta e isolamento de desempenho.

Ele foi projetado especificamente para gerenciamento eficiente de nuvens de IA multilocatários.

Aproveitando o PCIe 6.0, ele fornece taxa de transferência de dados de 800 Gb/s.

O ConnectX-8 Supernic suporta conectores OSFP 224 de porta única e QSFP112 de porta dupla.

Além disso, facilita o NVIDIA Socket Direct com expansão de placa auxiliar de 16 canais.

DPU Bluefield-3:

A DPU Bluefield-3 se conecta via redes Ethernet de 400 Gb/s ou redes InfiniBand NDR de 400 Gb/s.

Ele descarrega, acelera e isola funções de rede, armazenamento, segurança e gerenciamento definidas por software.

Como resultado, melhora significativamente o desempenho, a eficiência e a segurança do data center.

bandeja do computador

Cada bandeja de switch contém dois chips de switch NVLink.

Cada chip de switch individual suporta quatro interfaces, com uma única interface alcançando uma taxa de transferência de 1.8 TB/s.

Uma bandeja de switch fornece um total de 144 portas NVLink (100 GB), resultando em largura de banda geral de 14.4 TB/s.

Com nove bandejas de Switch, você pode conectar totalmente 72 GPUs Blackwell, cada uma com 18 portas NVLink (totalizando 1296 portas NVLink).

Bandeja de troca

Para conexões internas do gabinete:

As bandejas de computação e de switch são vinculadas por meio do NVLink de quinta geração.

A largura de banda bidirecional do NVLink de quinta geração é de 1.8 TB/s, o dobro da geração anterior e mais de 14 vezes a largura de banda do PCIe Gen5.

Essa comunicação de GPU para GPU de 1.8 TB/s permite a expansão da GPU em IA e computação de alto desempenho.

Dentro da bandeja Compute, GPUs e CPUs internas do Superchip são conectadas via comunicação NVLink Chip-to-Chip (largura de banda bidirecional de 900 GB/s).

nvlink

Conexões intra-gabinete (dentro de um único rack):

Para configurações com até 72 GPUs, a solução recomendada dentro de um único rack é utilizar cabos de cobre (NVLink). A densidade aprimorada de chips do GB200 e o resfriamento líquido eficiente permitem que mais GPUs sejam implantadas em um espaço menor, tornando os cabos de cobre uma escolha econômica para conexões dentro do gabinete. No entanto, as perdas de transmissão de longa distância continuam a ser uma preocupação para futuras iterações.

Quando o número de GPUs excede 72, uma rede de camada única é insuficiente. É necessária a atualização para uma estrutura de rede de camada superior. Duas opções estão disponíveis: rede NVLink única e InfiniBand (IB).

Configuração NVLink única:

Ao conectar mais de 72, mas menos de 576 GPUs, considere usar uma arquitetura de cluster totalmente NVLink. A proporção entre GPU e módulo óptico é de 1:9.

Para escalabilidade além de um único rack, uma abordagem recomendada é a configuração NVL72 de rack duplo. Cada rack contém 18 bandejas de computação e 9 bandejas de switch. Notavelmente, na versão de rack duplo, cada bandeja de computação apresenta apenas um Superchip Grace Blackwell (2 GPUs Blackwell + 1 CPU Grace). O conteúdo da bandeja do switch permanece consistente nas versões de rack único e duplo.

Com 36 GPUs Blackwell totalmente conectadas a 18 chips NVSwitch (totalizando 648 portas), um cluster de 576 GPU abrange 16 gabinetes de duas fileiras. Isso resulta em um requisito cumulativo de 10,368 portas, com uma velocidade unidirecional de 50 GB/s (100 GB/s bidirecional). Supondo que as camadas de rede L1 a L2 usem módulos ópticos de 1.6T (200GB/s), precisamos de 5,184 módulos ópticos de 1.6T. A proporção entre GPU e módulo óptico é de 1:9.

Configuração InfiniBand (IB):

Quando a contagem de GPU desejada exceder 72, considere a rede IB. Usando o switch NVIDIA Quantum-X800 Q3400 mais recente, o número de portas determina a capacidade máxima da GPU para diferentes camadas de rede.

Comparado com o NVIDIA Quantum-2 QM9700 com apenas 64 portas 400G, o Quantum-X800 Q3400 oferece 144 portas 800G, permitindo um máximo de (144^2)/2 = 10,368 GPUs interconectadas.

De acordo com as previsões do SemiAnalysis, a proporção do módulo óptico GPU para 1.6T é de aproximadamente 2.5 para uma rede de 2 camadas e cerca de 3.5 para uma rede de 3 camadas.

Deixe um comentário

Voltar ao Topo