Os cinco níveis de poder de computação NVIDIA AI: uma análise da tecnologia GB200 do GTC 2024

Na conferência GTC de 2024, a NVIDIA revelou seu inovador chip Blackwell AI. O que o diferencia e quais barreiras intransponíveis ele supera?

nvidia-blackwell-gpu-principal-2

Antes de mergulhar nas especificidades do Blackwell, vamos obter uma compreensão de alto nível da filosofia de design do GB200. O GB200 representa o superchip de IA mais poderoso da NVIDIA, potencialmente formando a espinha dorsal dos servidores de IA mais potentes do mundo. Como a NVIDIA conseguiu esse feito?

A resposta está em pesquisa e desenvolvimento meticulosos, juntamente com uma estratégia de expansão clara. Jensen Huang (CEO da NVIDIA) revelou que o custo de desenvolvimento da Blackwell foi de aproximadamente US$ 10 bilhões — um investimento impressionante.

Agora, vamos nos aprofundar nas cinco camadas de poder de computação:

Poder de computação de chip único

Sob as restrições da tecnologia de processo equivalente, uma área de chip maior acomoda mais transistores. O tamanho do chip da Blackwell ultrapassa os limites, abrangendo um wafer inteiro (800 mm²) dentro dos limites máximos de exposição das máquinas de litografia. Huang brincou com humor que ir além disso poderia fazer com que o wafer inteiro se quebrasse devido a limitações físicas.

Muitos percebem o poder de computação da IA ​​como o acúmulo de núcleos de multiprocessadores (SM) de streaming. Embora isso seja verdade até certo ponto, é essencial explorar os avanços no poder de computação de placa única. Por exemplo, o processador Ascend 910B da Huawei se aproxima dos níveis A100 aumentando os SMs.

Poder de computação de chip único

No entanto, como veremos, o poder de computação de placa única representa apenas o primeiro nível de capacidade de IA. Vamos agora examinar o progresso de Blackwell neste domínio.

Para abordar isso, vamos revisitar o desenvolvimento histórico das placas aceleradoras de IA da NVIDIA. A placa aceleradora de IA de primeira geração, Volta, introduziu a arquitetura Tensor Core projetada especificamente para computações de IA. A GPU V100, baseada nessa arquitetura, apresentava 80 unidades SM, cada uma contendo 8 núcleos computacionais (blocos). Cada núcleo podia concluir 128 operações de multiplicação-acumulação de ponto flutuante de 16 bits por ciclo. Com uma frequência de clock de 1.53 GHz, o poder de computação de ponto flutuante da V100 era de 125 teraflops (TFLOPS).

tempo

Para facilitar o entendimento de todos, vamos explicar brevemente algumas das abreviações aqui. “FLOPS” significa “Floating Point Operations Per Second”, representando o número de cálculos de ponto flutuante realizados por segundo. “Tera” é uma unidade de notação científica, onde 1 Tera é igual a 1000 Giga. Neste contexto, “Tera” corresponde a uma ordem de magnitude específica.

Agora, vamos nos aprofundar nos detalhes das diversas arquiteturas de GPU da NVIDIA:

Arquitetura de Turing (T4):

  • A arquitetura de computação tensorial de segunda geração da NVIDIA é chamada de “Turing”. Ela representa a placa de vídeo T4.
  • Uma placa T4 contém 40 multiprocessadores de streaming (SMs) e outras especificações são semelhantes às do V100.
  • Consequentemente, o poder computacional do T4 é aproximadamente metade do V100, especificamente em torno de 65 TFLOPS.

Arquitetura Ampere (A100):

  • A arquitetura de processamento tensor de terceira geração é a Ampere, que inclui as conhecidas placas de vídeo da série A100.
  • Com avanços na tecnologia de fabricação de chips, o A100 apresenta 108 SMs (o dobro da geração anterior) com a mesma contagem de núcleos do V100.
  • As unidades de computação atualizadas permitem que cada núcleo execute 256 multiplicações e acumulações de ponto flutuante por ciclo (o dobro da capacidade da arquitetura mais antiga).
  • Além disso, o A100 introduz um modo de ponto flutuante de 8 bits (FP8) otimizado para cargas de trabalho de aprendizado profundo. Cada núcleo de 16 bits pode funcionar como dois núcleos de 8 bits, aumentando ainda mais o poder computacional.
  • Apesar de uma ligeira diminuição na frequência do clock (1.41 GHz), o A100 atinge quase 5 vezes o poder computacional do V100, totalizando 624 TFLOPS (FP8).
ampére

Arquitetura Hopper (H100):

  • A arquitetura de quarta geração, conhecida como Hopper, foi lançada pela NVIDIA no ano passado.
  • Embora o número de SMs (132) na série H100 não tenha aumentado significativamente em comparação com a geração anterior, ela apresenta uma nova arquitetura Tensor Core e design de memória assíncrona.
  • Cada núcleo SM agora pode executar multiplicações e acumulações FP16 512 vezes por ciclo.
  • A frequência do clock é um pouco maior, 1.83 GHz.
  • Como resultado, uma única placa H100 atinge a impressionante marca de 1978 Tera FLOPS (FP8), entrando no domínio PFLOPS (1.97 Peta FLOPS) pela primeira vez.
  • Para colocar isso em perspectiva, 1 PFLOPS é igual a 1000 TFLOPS.
  • Imagine expandir a capacidade do seu disco rígido em mil vezes e você teria 1 PB, uma unidade de armazenamento comum em grandes data centers.
funil de carga

Na semana passada, Huang revelou a arquitetura Blackwell de quinta geração, marcando um progresso significativo em poder computacional. Com base em dados disponíveis publicamente, espera-se que o GB200, utilizando a nova unidade de dados FP4, alcance 20 PetaFLOPS de poder computacional em tarefas de inferência. Quando convertido de volta para a precisão FP8, ele ainda deve fornecer impressionantes 10 PFLOPS, representando aproximadamente uma melhoria de cinco vezes em relação ao H100.

Informações divulgadas publicamente indicam que o Blackwell opera em uma frequência de clock de 2.1 GHz. Assumindo mudanças arquitetônicas mínimas, isso implica que o Blackwell contará com 600 Streaming Multiprocessors (SMs), quase quatro vezes mais que o H100. Com dois dies no design do Blackwell, até mesmo uma GPU de die único terá o dobro do número de SMs que o H100.

O aumento notável no poder computacional deve muito aos avanços em litografia, gravação de chip e limitações físicas relacionadas ao tamanho do wafer — o primeiro nível de melhoria. Além disso, o refinamento contínuo da arquitetura Tensor Core da NVIDIA, incluindo pipelines otimizados para Transformers e drivers CUDA dedicados, contribuiu significativamente para o desempenho aprimorado do Blackwell.

A100FP16

No entanto, o aumento fundamental no poder computacional da Blackwell decorre principalmente do aumento do número de SMs. Comparado à arquitetura Hopper introduzida em 2023, a Blackwell atinge uma melhoria de aproximadamente cinco vezes. Quando comparado à arquitetura Volta de 2017, o salto é ainda mais substancial — cerca de 40 vezes.

A segunda camada de poder computacional envolve interconexões Die-to-Die.

Blackwell atinge 600 SMs ao criar o maior chiplet do mundo: unindo diretamente dois núcleos de GPU em uma unidade massiva que quebra as limitações físicas de um único wafer. A velocidade de comunicação entre esses núcleos atinge impressionantes 10 TB/s, levando-os a se perceberem como um único chip colossal.

Enquanto as restrições de fotomáscaras, exposição, tamanho do wafer e dimensões do processo normalmente limitam o número de transistores em um único chip, Blackwell desafia esses limites. Sua área de chip abrange 800 milímetros quadrados, chamada de “Reticle-Sized”, indicando o tamanho máximo produzível por máquinas de fotolitografia.

ficha balckwell

A ambição de Huang não para por aí. Ele se aventura no próximo nível de poder computacional: conectar dois dies para formar um chiplet ainda maior. Enquanto a velocidade de interconexão permanecer suficientemente rápida, esses dois chiplets operarão como uma única unidade — o nascimento da maior GPU do mundo.

Por que dois chiplets e não três ou quatro? O princípio de “um gera dois, dois geram todas as coisas” se aplica aqui. “Dois” representa a solução ótima para comunicação e complexidade de chip dentro das restrições tecnológicas atuais.

A Apple também tem sua própria tecnologia de interconexão dual-die chamada UltraFusion, embora com capacidade de comunicação reduzida (apenas 2.5 TB/s). No entanto, as GPUs da Huang Renxun são produtos industriais, superando em muito os eletrônicos de nível de consumidor.

Morra 2 Morra

Essa conquista é uma demonstração de proeza sem custo algum da NVIDIA, impulsionada pela demanda explosiva por poder computacional. A Blackwell ostenta a comunicação Die-to-Die mais rápida do mundo, com impressionantes 10 TB/s, utilizando uma tecnologia chamada NV-HBI (High Bandwidth Interface), que permanece não revelada. Especulamos que pode ser uma variante do NVLINK 5.0 ou 224G XSR serdes, empregando 48 grupos de canais para uma largura de banda total de 10 TB/s.

Independentemente da tecnologia específica adotada pela NVIDIA, isso coloca demandas inteiramente novas na Advanced Packaging. As empresas de embalagem, por meio de intrincados fios de cobre dentro da placa e esferas de solda de metal na parte traseira do PCB, alcançam interconexões complexas de 2.5D — um verdadeiro feito técnico. A embalagem, perdendo apenas para a fotolitografia, apresenta um desafio significativo para a indústria doméstica de chips.

3DFbrico

Em resumo, a Blackwell ostenta 206 bilhões de transistores, suportando até oito pilhas de memória HBM3e (em vez de quatro), cada uma com capacidade de 24 GB e largura de banda de 1 TB/s. Consequentemente, a GPU B200 oferecerá um total de 192 GB de memória e largura de banda de memória de 8 TB/s.

O custo de pesquisa e desenvolvimento para GPUs Blackwell é de impressionantes US$ 10 bilhões. Alcançando o poder computacional máximo de GPU única, isso marca a primeira linha de defesa para os processadores de supercomputação de IA da NVIDIA.

Quanto à interconexão de três, quatro ou mais GPUs, Huang Renxun deixa esse desafio para o próximo nível de poder computacional: NVLink.

O terceiro nível de poder computacional na arquitetura Blackwell da NVIDIA envolve o NVLink e interconecta 72 GPUs.

Embora combinar dois dies em uma única GPU pareça poderoso, aplicações práticas ainda exigem mais. Para grandes modelos de linguagem com centenas de bilhões de parâmetros, atingir treinamento oportuno em corpora de texto massivos com trilhões de tokens exige computação paralela extensiva.

O paralelismo de dados é um aspecto, onde pesos de modelo e até mesmo camadas individuais devem ser distribuídos entre diferentes GPUs para computação paralela, alcançando aceleração tridimensional de divisão e conquista. Para treinamento paralelo de grandes modelos de linguagem, podemos consultar os insights do HuggingFace sobre este tópico.

paralelo

O que precisamos entender é que, mesmo com memória suficiente, uma única GPU não é suficiente para o treinamento de grandes modelos de linguagem.

A solução da NVIDIA envolve a montagem de duas GPUs Blackwell e um processador Arm (Grace CPU) em uma única placa-mãe. Este produto, chamado GB200 (Grace Blackwell 200), ostenta duas GPUs Blackwell e quatro dies, resultando em um poder computacional FP8 de 20 PFLOPS — o dobro de uma única GPU. As duas GPUs são interconectadas via tecnologia NVLink, assistidas pela Grace CPU, alcançando uma largura de banda de comunicação de 1.8 TB/s por GPU e uma largura de banda total de 3.6 TB/s. A conexão específica é ilustrada no diagrama abaixo:

Diagrama de conexão GB200

Subsequentemente, a NVIDIA monta 36 dessas placas PCB (chamadas de rack) em um chassi de servidor padrão. Essas 36 placas-mãe permanecem interconectadas usando NVLink, facilitado por sinais elétricos de cabo de cobre.

Sob o padrão NVLink 5, cada GPU pode se comunicar com até 18 outras GPUs simultaneamente, resultando em uma largura de banda total de 1.8 TB/s — 14 vezes a do PCIe 5. No total, as 72 GPUs alcançam uma largura de banda de comunicação combinada de 130 TB/s, o que poderia, teoricamente, acomodar toda a internet. 

Desempenho em escala do nvlink

Este gabinete, equipado com 72 núcleos de GPU Blackwell, é chamado GB200 NVL72. A interconexão de 72 GPUs supera os esquemas paralelos tradicionais de 8 GPUs (como os da Huawei e AMD) por um fator de 9. A capacidade de memória HBM72e de alta velocidade configurável do NVL3 aumenta de 192 GB de cartão único para incríveis 13.5 TB, com uma largura de banda de memória máxima de 576 TB/s.

Esses números podem parecer estonteantes, mas seu impacto na velocidade de treinamento de modelos grandes é inegável. Comparado ao GB200 com apenas duas GPUs, a melhoria de desempenho do NVL72 é de impressionantes 36 vezes. Nós realmente entramos no reino da supercomputação, onde a simplicidade encontra a força bruta.

GB200 NVL72 FP8

Especificamente, o GB200 NVL72 atinge 720 PFLOPS em poder computacional FP8 e, pela primeira vez, entra no reino Exa com 1.44 Exa FLOPS em FP4. Isso explica por que, em tarefas de inferência, o NVL72 supera o H100 em até 30 vezes.

O poder computacional da exaescala agora rivaliza com os principais supercomputadores do mundo. Enquanto os supercomputadores alcançam esse nível de desempenho usando cálculos FP64 e milhões de núcleos de CPU, o GB200 NVL72 consegue isso com apenas 72 GPUs

GB200 NVL72

Computação de Quarta Camada: NVSwitch, SuperPOD

Quando um gabinete não é suficiente, a solução é adicionar mais gabinetes. Essa abordagem direta e de força bruta é o princípio fundamental por trás da estratégia de supercomputação Scale Up de Jensen Huang.

Em teoria, alavancar o NVSwitch permite um máximo de 576 conexões de GPU via NVLink. Coincidentemente, isso se alinha com a configuração de 8 gabinetes GB200-NVL72, aos quais a NVIDIA se refere como GB200 SuperPOD.

GB200 SuperPOD

Cada NVSwitch fornece até 144 interfaces NVLink. Em um único gabinete, você precisaria de 9 NVSwitches, resultando em 72 GPUs — cada uma totalmente carregada com 18 conexões NVLink (72 * 18 = 9 * 144).

O NVLink oferece uma conexão de GPU All-to-All, o que significa que cada GPU tem canais upstream e downstream, conectando-se a qualquer outra GPU dentro do sistema.

O NVLink 5 tem uma vantagem significativa sobre o produto GH100 anterior: enquanto a geração mais antiga permitia um máximo de 64 canais NVLink por NVSwitch e 256 GPUs em um sistema NVLINK, o GB200 pode acomodar 72 GPUs em um único gabinete (6 H100s). Para 256 GPUs em 8 gabinetes, você precisaria de um total de 72 NVSwitches (9 * 8).

Entre os gabinetes, as placas de rede da série ConnectX da NVIDIA, usando padrões InfiniBand, conectam-se via Ethernet a 400 GB/s. Isso explica os cabos azuis visíveis na parte traseira da configuração mostrada. Um OSFP 800G normalmente suporta 2 canais a 400 GB/s ou 8 canais a 100 GB/s.

GH100

Alternativamente, uma abordagem não convencional envolve usar NVSwitches para interconectar os gabinetes mais externos, como mostrado abaixo. Nesta configuração, 8 H100s formam um nó, resultando em 32 nós. Cada nó se conecta internamente usando 4 NVSwitches. Seguindo o arranjo dos switches de fibra no diagrama, 18 NVSwitches adicionais são usados ​​para conectar completamente as interfaces sobressalentes em cada nó. Isso totaliza 146 NVSwitches.

Interruptor NV

Embora a largura de banda agregada máxima do NVSwitch seja de 1 PB/s (quase 500 vezes a de um único NVLink), sua largura de banda máxima não bloqueante de 14.4 TB/s fica muito aquém dos 130 TB/s dentro de um único gabinete NVL72. Portanto, o dimensionamento de desempenho não é sem perdas. Durante o treinamento, as tarefas de comunicação devem ocorrer principalmente dentro dos gabinetes, com a comunicação entre gabinetes reservada para necessidades específicas, como atualizações de gradiente após a conclusão de um lote.

Sem dúvida, se você puder pagar por esses 8 gabinetes, seu poder computacional (cálculos FP4) atingiria espantosos 11.52 Exa FLOPS. Mesmo para o FP8 comumente usado, são 5.76 Exa FLOPS. Impressionante, não é?

Computação de Quinta Camada: Super Fábrica de IA

Na conferência anterior da GTC em 2023, Huang revelou uma imagem intrigante: um sistema capaz de suportar 8,000 GPUs, concluindo o treinamento de um enorme modelo de linguagem especialista híbrida MoE de 400 bilhões de parâmetros em apenas 20 horas — uma tarefa que levaria três meses de outra forma. A NVIDIA provavelmente está colaborando com provedores de nuvem como o Azure, e é seguro assumir que este sistema é um fenômeno global único.

treinamento de ia

O vasto número de GPUs provavelmente se interconecta em vários SuperPODs usando switches ópticos e topologia de fibra. Todo o data center se tornará um reino dominado por GPU. No futuro, junto com usinas nucleares, podemos testemunhar o surgimento de fábricas computacionais — muito parecidas com o profético Roboão da série de TV “Westworld”. Essas fábricas criarão AGI (Inteligência Geral Artificial) e potencialmente governarão o mundo humano.

Abaixo, você encontrará um diagrama conceitual da fábrica computacional, seguido por uma imagem de Roboão:

Fábrica Computacional
Roboão

Quanto ao poder computacional? Se você ainda estiver curioso, considere isto: com 8,000 GPUs (20 vezes a estimativa do SuperPOD), os cálculos do FP4 atingiriam 220 Exa FLOPS sem precedentes. Mesmo para o FP8 comumente usado, estamos olhando para 115 Exa FLOPS.

Deixe um comentário

Voltar ao Topo