Análise aprofundada e perfil de desempenho do switch NV

A tecnologia de GPU da NVIDIA sem dúvida brilha no cenário atual de computação de alto desempenho. Com o rápido desenvolvimento da inteligência artificial e do aprendizado de máquina, a demanda por poder computacional continua a crescer, tornando a interconectividade entre GPUs cada vez mais crucial. Neste contexto, a NVIDIA introduziu o protocolo NVLink e a solução de interconexão multi-GPU baseada nesta tecnologia: NV Switch.

Esta seção investiga a história do desenvolvimento, os princípios de funcionamento e o papel fundamental do NV Switch na construção de clusters de servidores de alto desempenho, revelando os aspectos misteriosos desta tecnologia.

Por que o switch NV é necessário

À medida que as capacidades computacionais individuais das GPUs se aproximam dos limites físicos, o trabalho colaborativo entre múltiplas GPUs se torna uma tendência inevitável.

capacidades computacionais individuais da GPU

No entanto, o acesso à memória HBM2 de outras GPUs requer a passagem da interface PCIe. Conforme mostrado no diagrama acima, as interfaces PCIe tradicionais têm limitações nas taxas de transferência de dados e na largura de banda, muitas vezes tornando-se gargalos de desempenho para a comunicação da GPU. Para superar essa limitação, a NVIDIA desenvolveu a tecnologia NVLink, que fornece dez vezes a largura de banda do PCIe. Ele permite que oito GPUs em um único servidor se conectem por meio de redes ponto a ponto, formando uma malha cúbica mista.

A principal vantagem do NVLink reside em contornar os mecanismos tradicionais de alocação e agendamento de CPU, permitindo a troca direta de dados entre GPUs. Esse design reduz a latência de transferência de dados e melhora significativamente o rendimento geral do sistema. Além disso, os GPCs NVlink permitem acesso aos dados de memória HBM2 entre placas e permitem a interação com dados HBM2 em outras GPUs.

Em sistemas multi-GPU, o NVLINK também serve como XBARs, atuando como pontes entre diferentes GPUs, permitindo que os dados fluam livremente. Evita habilmente conflitos com o barramento PCIe, permitindo que NVLink e PCIe coexistam como soluções complementares, fornecendo coletivamente os recursos de transferência de dados necessários para o sistema.

O NV Switch baseia-se nesta base, suportando sistemas GPU totalmente interconectados e totalmente sem bloqueio. Ao fornecer mais interfaces NVLink sem saltos intermediários de GPU, ele permite interconectividade de GPU em maior escala, resultando em clusters de computação mais poderosos.

Na evolução tecnológica da NVIDIA, a arquitetura Pascal introduziu pela primeira vez o NVLink, melhorando significativamente a eficiência da comunicação da GPU ao criar um canal de alta velocidade. No entanto, o verdadeiro salto ocorreu na arquitetura Volta da próxima geração, acompanhado pelo nascimento do NVSwitch.

O NVSwitch atua como um hub inteligente na rede de transmissão de dados, suportando links NVLink adicionais e permitindo interconectividade total entre múltiplas GPUs. Otimiza muito a eficiência e a flexibilidade da troca de dados.

interconectividade total entre múltiplas GPUs

Conforme ilustrado na figura, a arquitetura Volta alcançou 300 GB/s de comunicação entre GPUs, enquanto a arquitetura Hopper avançou ainda mais para 900 GB/s. Por trás dessa conquista está o aumento significativo na contagem de links NVLink, passando de 6 em Volta para 18 em Hopper. É o mesmo que adicionar viadutos e rotatórias à rodovia original, permitindo um fluxo de dados mais eficiente entre GPUs e fornecendo suporte robusto para computação de alto desempenho e processamento paralelo em grande escala.

Arquitetura Volta alcançou comunicação 300G

O diagrama acima ilustra a arquitetura das interconexões de GPU em servidores DGX. No DGX-1 P100, existem 8 placas GPU, cada uma suportando 4 links NVLink que permitem comunicação de alta velocidade entre GPUs. Essas GPUs são organizadas em duas malhas de cubo, com cada cubo contendo 4 GPUs (GPU 0~3 e GPU 4~7). Dentro de cada cubo, as GPUs podem se comunicar diretamente via NVLink ou através de um switch PCIe. Entretanto, a comunicação entre cubos (por exemplo, entre GPU 0 e GPU 4) requer roteamento indireto através de outras GPUs.

DGX-2 introduziu a tecnologia NVSwitch de primeira geração da NVIDIA, um avanço significativo que permite uma comunicação mais eficiente entre GPUs. Na arquitetura Volta, cada placa GPU suporta 6 links NVLink (em vez de 4). Além disso, ao incorporar 6 NVSwitches, o DGX-2 interliga todas as GPUs do servidor, permitindo a comunicação simultânea entre 8 pares de GPUs sem saltos intermediários. Esta comunicação direta de alta velocidade aumenta muito a eficiência da transferência de dados e o desempenho computacional geral.

DGX-A100 utiliza tecnologia NVSwitch de segunda geração. Comparado com a primeira geração, o NVSwitch de segunda geração oferece maior largura de banda de comunicação e menor latência. Na arquitetura A100, cada placa GPU suporta 12 links NVLink (terceira geração) e 6 NVSwitches criam uma topologia de rede totalmente conectada. Embora a configuração padrão do DGX A100 inclua apenas 8 placas GPU, o sistema pode ser expandido para suportar mais GPUs A100 e NVSwitches para supercomputação em maior escala.

O DGX-H100 emprega tecnologias NVSwitch de terceira geração e NVLink de quarta geração. Cada placa GPU suporta 18 links NVLink. Na arquitetura H100 são introduzidos 4 NVSwitches, usando uma topologia em camadas: cada placa se conecta ao primeiro NVSwitch com 5 links, ao segundo NVSwitch com 4 links, ao terceiro NVSwitch com 4 links e ao quarto NVSwitch com 5 links. Isso resulta em um total de 72 NVLinks fornecendo largura de banda de rede NVLink bidirecional de 3.6 TB/s, uma melhoria de 1.5x em relação à geração anterior.

O design original do NVSwitch visava criar um sistema GPU totalmente desbloqueado e interconectado para processamento paralelo em grande escala. Na primeira geração, o NVSwitch suportava 18 interfaces, permitindo que até 16 GPUs fossem totalmente interconectadas para compartilhamento e comunicação eficiente de dados.

Conforme mostrado no diagrama da arquitetura V100, cada GPU possui 6 canais NVLink que se conectam ao NVSwitch, formando uma rede de comunicação de alta largura de banda. No sistema DGX-2, 8 GPUs V100 são conectadas a 6 NVSwitches por meio desses canais NVLink, criando um backbone poderoso.

GPU V100

Conforme mostrado no diagrama acima, na arquitetura V100, cada GPU possui 6 canais NVLink que podem se conectar ao NVSwitch, formando uma rede de comunicação de alta largura de banda. No sistema DGX-2, 8 GPUs V100 são conectadas a 6 NVSwitches por meio desses canais NVLink, criando um backbone poderoso.

NVLink

O NVSwitch de primeira geração suporta a tecnologia NVLink 2.0, com cada interface fornecendo canais duplos e largura de banda de até 50 GB/s. Isto significa que através do NVSwitch, todo o sistema atinge uma impressionante largura de banda total de 900 GB/s, melhorando significativamente as taxas de transferência de dados e a eficiência computacional.

Além disso, o NVSwitch é fabricado usando o processo FinFET FFN de 12nm da TSMC, permitindo operar com potência de 100W enquanto integra até 200 milhões de transistores.

Em relação ao circuito de E/S e empacotamento, o NVSwitch é embalado em um grande chip BGA com 1940 pinos, dos quais 576 são especificamente dedicados ao suporte de 18 links NVLink. Os pinos restantes controlam a alimentação e várias interfaces de E/S, incluindo portas de gerenciamento x4 PCIe, I2C, GPIO, fornecendo recursos flexíveis de gerenciamento e expansão para o sistema.

Os parâmetros específicos são mostrados na tabela abaixo:

parâmetro nvSwitch

BW bidirecional NVLink até 50 GB/s

Utilização real Até 80%

Bloco de comutação NV

Bloco de comutação NV

O bloco NVSwitch inicial, conforme ilustrado, inclui o GPU XBAR à esquerda. É um dispositivo de ponte altamente especializado projetado para ambientes de interconexão NVLink, permitindo que pacotes de dados fluam e sejam trocados entre várias GPUs enquanto se apresentam externamente como uma única GPU. Por meio do GPU XBAR, os aplicativos clientes podem aproveitar o desempenho coletivo de várias GPUs, reduzindo a complexidade do gerenciamento da comunicação entre GPUs no lado do cliente.

Além disso, o GPU XBAR utiliza tecnologia de buffer baseada em memória estática de acesso aleatório (SRAM) para obter transferência de dados sem bloqueios. Este mecanismo de buffer garante continuidade e eficiência mesmo sob cargas elevadas.

A partir da GPU V100, a NVIDIA reutilizou os blocos IP NVLink e o design XBAR, garantindo compatibilidade entre diferentes gerações de produtos e permitindo iteração e otimização contínuas da tecnologia NVLink, reduzindo custos e tempo de desenvolvimento.

endereçamento físico nvswitch

O diagrama também ilustra como o NVSwitch e as GPUs distribuem e transferem dados por toda a GPU. Na programação, os desenvolvedores normalmente lidam com endereços virtuais gerenciados e abstraídos pelo sistema operacional, fornecendo espaços de endereçamento independentes para diferentes programas. No entanto, os dados são armazenados fisicamente usando endereços físicos na memória. Esses endereços físicos apontam diretamente para locais específicos na memória, formando a base para o acesso aos dados. Ao transmitir dados via NVLink, conforme mostrado no diagrama, são usados ​​endereços físicos em vez de endereços virtuais. Essa escolha acelera a indexação de dados e a velocidade de acesso.

O NVSwitch, como dispositivo de ponte para o NVLink, não apenas fornece um caminho de comunicação de alta largura de banda, mas também gerencia mecanismos complexos de roteamento e buffer para garantir que os pacotes de dados sejam transmitidos com precisão e rapidez ao seu destino com base no endereço físico correto. O uso de endereços físicos para comunicação NVLink reduz a necessidade de tradução de endereços na GPU alvo, diminuindo assim a latência e melhorando as taxas de transferência de dados. Isto é crucial para aplicações de computação e IA de alto desempenho que exigem processamento rápido de grandes quantidades de dados.

NVSwitch: Princípios e Recursos de Simplificação

quadrilha

Em configurações sem NVSwitch, as conexões diretas de GPU para GPU normalmente envolvem a agregação de NVLinks em vários grupos (referidos como “Gangs”). Nesta configuração, várias GPUs se comunicam por meio de links NVLink compartilhados. No entanto, uma limitação desta abordagem é que a largura de banda máxima entre quaisquer duas GPUs é limitada pela quantidade e largura de banda do NVLink dentro de seus respectivos Gangs.

V100

A introdução do NVSwitch e suas melhorias A tecnologia NVSwitch da NVIDIA revoluciona a comunicação entre GPUs. Como um switch de alta velocidade, o NVSwitch permite a interação de dados em todos os links.

Na arquitetura NVSwitch, qualquer par de GPUs pode se interconectar diretamente e, desde que a largura de banda total de seis NVLinks não seja excedida, o tráfego de GPU individual consegue uma transmissão sem bloqueio. Isto significa que a arquitetura totalmente interconectada suportada pelo NVSwitch permite fácil escalabilidade do sistema para acomodar mais GPUs sem sacrificar o desempenho. Cada GPU pode aproveitar a alta largura de banda fornecida pelo NVLink para rápida troca de dados.

Vantagens e recursos do NVSwitch na interconexão multi-GPU:

Escalabilidade e Expansão: A introdução do NVSwitch melhora significativamente a escalabilidade dos clusters de GPU. Simplesmente adicionando mais NVSwitches, o sistema pode suportar GPUs adicionais, expandindo a capacidade computacional.

Construção Eficiente do Sistema: Por exemplo, oito GPUs podem ser interconectadas de forma eficiente usando três NVSwitches. Este design permite que os dados fluam livremente por todos os links da GPU, maximizando a flexibilidade e a eficiência na circulação de dados.

Utilização de largura de banda bidirecional: Nesta configuração, qualquer par de GPU pode utilizar toda a largura de banda bidirecional de 300 GBps para comunicação. Cada GPU alcança transferência de dados de alta velocidade e baixa latência, aumentando significativamente a velocidade de processamento de tarefas computacionais.

Comunicação sem bloqueio: O crossbar switch (XBAR) dentro do NVSwitch fornece um caminho exclusivo do ponto A ao ponto B para transmissão de dados. Este design garante uma comunicação sem bloqueios e sem interferências, melhorando ainda mais a confiabilidade da transferência de dados e o desempenho geral do sistema.

Topologia de rede otimizada: O NVSwitch suporta estruturas de topologia de rede que oferecem soluções otimizadas para a construção de clusters de GPU em larga escala. Os projetistas de sistemas podem configurar de forma flexível as conexões GPU-para-GPU com base em requisitos computacionais específicos.

NVSwitch de terceira geração

NVSwitch de terceira geração

Conforme representado no diagrama, o NVSwitch de terceira geração é fabricado usando o processo 4N da TSMC. Apesar de possuir um grande número de transistores e alta largura de banda, mantém um consumo de energia relativamente baixo. Ele fornece 64 portas de link NVLink 4, permitindo a construção de redes complexas contendo inúmeras GPUs, mantendo comunicação de alta velocidade entre cada GPU. Além disso, ele suporta largura de banda bidirecional de 3.2 TB/s, melhorando significativamente as taxas de transferência de dados e tornando mais eficiente o processamento paralelo em larga escala de conjuntos de dados.

Além de conectar múltiplas placas GPU dentro de um servidor, o NVSwitch de terceira geração também pode se estender para conectar servidores GPU externamente, formando clusters GPU completos de alta velocidade. Um switch físico composto por chips NVSwitch de terceira geração pode criar clusters com até 256 GPUs H100, fornecendo uma largura de banda total de 57.6 TB/s.

Em relação à tecnologia de sinalização, adota sinalização PAM50 de 4 Gbaud, com cada par diferencial fornecendo largura de banda de 100 Gbps, mantendo transmissão em alta velocidade e baixa latência.

O NVSwitch integra a tecnologia NVIDIA SHARP, incluindo operações como all_gather, reduz_scatter e broadcast atomics, acelerando a comunicação do cluster e melhorando ainda mais o desempenho. A interface elétrica física do NVSwitch 3.0 é compatível com Ethernet de 400 Gbps e InfiniBand, garantindo interoperabilidade com tecnologias de rede existentes.

lógica de porta

O NVSwitch de terceira geração da NVIDIA apresenta vários recursos inovadores. A inclusão do novo módulo SHARP e do módulo NVLink melhora significativamente a comunicação eficiente e o processamento de dados entre GPUs, conforme mostrado no diagrama.

Novo Módulo SHARP

O recém-introduzido módulo SHARP atua como um condutor inteligente, conduzindo uma sinfonia de dados com seus poderosos recursos de processamento. Ele oferece suporte a vários operadores, de operações lógicas a aritméticas, e é compatível com vários formatos de dados, como FP16 e BF16, fornecendo suporte robusto para cargas de trabalho de IA e aprendizado de máquina. O design do controlador SHARP permite o gerenciamento paralelo de até 128 grupos SHARP, semelhante a uma divindade multitarefa de mil braços, melhorando significativamente a eficiência do processamento paralelo de dados.

O crossbar switch (XBAR) dentro do NVSwitch, meticulosamente ajustado e otimizado, atende perfeitamente aos requisitos de transferência de dados do módulo SHARP. Este design colaborativo garante transmissão de dados eficiente e de baixa latência entre GPUs, impulsionando o desempenho geral do sistema como um corcel a galope.

Novo módulo NVLink

O novo módulo NVLink integrado não só fornece proteção de segurança adicional para dados e chips, agindo como um escudo robusto contra acesso não autorizado e possíveis vazamentos de dados, mas também aumenta a segurança dos dados. A introdução do particionamento de portas, como um movimento estratégico de xadrez, isola diferentes portas em redes NVLink separadas, proporcionando maior flexibilidade para particionamento lógico de recursos em diferentes redes e otimizando capacidades multitarefa.

O suporte para os cabos Octal Small Formfactor Pluggable (OSFP) de próxima geração garante uma base sólida para expansão futura da rede. Esses cabos oferecem maiores taxas de transferência de dados e menor atenuação de sinal, tornando-os adequados para comunicação de alta velocidade de longa distância e permitindo possibilidades ilimitadas de escalabilidade de rede.

O novo módulo NVLink também amplia os recursos de telemetria, permitindo que os administradores de sistema monitorem e otimizem com precisão o desempenho da rede, garantindo a operação estável do sistema. A tecnologia integrada de correção direta de erros (FEC) atua como um guardião vigilante, aumentando a confiabilidade da transmissão de dados, especialmente diante de atenuação ou interferência de sinal, garantindo a integridade e a precisão dos dados.

Quando as GPUs H100 utilizam rede NVLink, quão mais rápidas elas são em comparação com as GPUs A100 com rede IB? Vamos comparar a largura de banda entre DGX A100 256 POD e DGX H100 256 POD:

Comparação de redes InfiniBand (IB) e NVLink para GPUs H100

Largura de banda interna do DGX A100:

Cada DGX A100: 8/2 * 600 GB/s = 2400 GB/s

Em 32 DGX A100s (256 GPUs A100), assumindo 8 NICs HDR de 200 Gbps por servidor e uma taxa de convergência de switch TOR de 4:1:

Largura de banda total = 256/2/4 * 200 GB/s = 6400 GB/s

Largura de banda interna do DGX H100:

Cada DGX H100: 8/2 * 900 GB/s = 3600 GB/s

Em 32 DGX H100s (256 GPUs H100), com uma taxa de convergência de 2:1:

Largura de banda total = 256/2/2 * 900 GB/s = 57600 GB/s

Comparado ao DGX A100, um único DGX H100 fornece um aumento de 1.5x na largura de banda e um aumento de 3x na largura de banda bidirecional. Usando 32 DGX H100s, a largura de banda por pista pode ser melhorada em 9x, e a largura de banda bidirecional pode ser melhorada em 4.5x.

mecanismo de recomendação neural

Resumo

Na era atual orientada por dados, a demanda por computação de alto desempenho continua a ultrapassar os limites tecnológicos. A tecnologia NVSwitch da NVIDIA, servindo como ponte de comunicação entre GPUs, desempenha um papel fundamental na construção de clusters de computação eficientes. Desde o início do primeiro NVSwitch até as inovações da terceira geração, a busca incansável da NVIDIA pela eficiência computacional é evidente. O NVSwitch não apenas melhora a largura de banda e a velocidade de transferência de dados, mas também fortalece as capacidades de processamento de dados e a segurança do sistema através dos módulos SHARP e NVLink. Sua presença permite que sistemas multi-GPU colaborem de forma mais eficiente, fornecendo suporte robusto para áreas como inteligência artificial, aprendizado de máquina e análise de big data. À medida que a tecnologia avança, o NVSwitch continuará a ser fundamental no cenário da computação de alto desempenho, simbolizando a inovação da NVIDIA e impulsionando o progresso da indústria. Guiados pelo NVSwitch, antecipamos um futuro mais inteligente, mais eficiente e interconectado.

Deixe um comentário

Voltar ao Topo