De acordo com o Economic Daily News de Taiwan, a NVIDIA planeja lançar a linha de produtos de servidores de IA GB300 de próxima geração na conferência GTC em março do ano que vem.
Recentemente, a Foxconn e a Quanta iniciaram proativamente a pesquisa e o desenvolvimento do GB300 para aproveitar a oportunidade mais cedo. Entende-se que a NVIDIA determinou preliminarmente a configuração do pedido do GB300, com a Foxconn permanecendo como seu maior fornecedor. O GB300 deve chegar ao mercado no primeiro semestre do ano que vem, à frente dos concorrentes globais. Fontes da indústria revelam que a Quanta e a Inventec também são parceiras importantes para os servidores GB300 AI da NVIDIA. A Quanta está em segundo lugar, atrás da Foxconn, em participação de pedidos, enquanto a Inventec aumentou significativamente sua participação de pedidos em comparação com o GB200, posicionando-os para capitalizar as oportunidades do GB300 de próxima geração.
Placa de vídeo: B200 → B300
Em outubro deste ano, a NVIDIA renomeou todos os produtos Blackwell Ultra para a série B300, que usa a tecnologia CoWoS-L, aumentando a demanda por soluções de empacotamento avançadas.
Aumento de desempenho
A nova GPU B300 oferece um aumento de 1.5 vezes no desempenho de computação de ponto flutuante (FP4) em relação à B200 anterior.
TDP Energia Térmica
O consumo de energia da GPU B300 pode chegar a 1400 W, comparado a aproximadamente 1000 W da B200, marcando um salto significativo. Para manter essa potência substancial, tanto a fonte de alimentação quanto os sistemas de resfriamento precisam acompanhar.
Sistema de resfriamento líquido atualizado
Placa de resfriamento líquido + conector de troca rápida UQD aprimorado: O consumo de energia de 1400 W torna o resfriamento a ar insuficiente. Portanto, o GB300 usa placas de resfriamento líquido e atualiza os conectores de troca rápida UQD para maior eficiência e confiabilidade.
Novo design do gabinete: o layout do gabinete, o design da tubulação e os canais de resfriamento foram redesenhados para acomodar um número maior de placas de resfriamento de água, sistemas de resfriamento líquido e componentes de conexão rápida UQD.
Atualização significativa para a memória HBM3e
192 GB → 288 GB: Lembra da memória HBM192 de 3 GB na era GB200? Agora, cada GPU B300 ostenta impressionantes 288 GB de HBM3e! Esse aumento substancial é essencialmente um sinal verde para treinamento extensivo de modelos, tornando-o altamente atraente para modelos grandes com centenas de bilhões de parâmetros.
Empilhamento de 8 camadas → 12 camadas: Comparado à pilha anterior de 8 camadas, a nova configuração usa uma pilha de 12 camadas — não apenas aumentando a capacidade, mas também melhorando significativamente a largura de banda. Esse alto paralelismo permite que os dados fluam suavemente, sem gargalos.
Rede e Transmissão
Placa de rede: ConnectX 7 → ConnectX 8: O GB300 foi atualizado da placa de rede ConnectX 7 para o ConnectX 8. Esta atualização traz melhorias abrangentes em largura de banda, latência e confiabilidade, garantindo transferência de dados perfeita em clusters de grande escala.
Módulos Ópticos: 800G → 1.6T: A atualização de 800G para 1.6T é comparável à mudança da segunda para a quarta marcha. Para cenários que envolvem interações de dados massivas, como treinamento de HPC e IA, esse aumento de largura de banda é um salva-vidas.
Gerenciamento de energia e confiabilidade
Novas adições: Bandeja de capacitor padronizada e BBU: O gabinete GB300 NVL72 agora apresenta uma bandeja de capacitor padronizada com um sistema opcional de Unidade de Backup de Bateria (BBU). Cada módulo BBU custa cerca de US$ 300, e todo o sistema GB300 requer cerca de 5 módulos BBU, totalizando aproximadamente US$ 1500. Embora isso possa parecer caro, é um investimento crucial para evitar quedas repentinas de energia em ambientes de IA de alta carga e alta potência.
Alta demanda por supercapacitores: Cada rack NVL72 requer mais de 300 supercapacitores para lidar com surtos de corrente instantâneos e proteger o sistema. Com preço de US$ 20-25 cada, isso representa uma despesa significativa, mas é necessário para o GB300, que consome muita energia.
Grande Revolução da Memória
LPCAMM entra no palco do servidor: pela primeira vez, a NVIDIA introduziu o padrão LPCAMM (Low Power CAMM) para placas de computação de servidor. Anteriormente visto em laptops leves, esse "pequeno sujeito" agora está assumindo as altas demandas de carga dos servidores, provando suas capacidades excepcionais. A introdução do LPCAMM em servidores sugere uma tendência para torná-los mais "finos e elegantes", sugerindo uma possível mudança para uma abordagem mais moderna no design de servidores.
Substituindo DIMMs tradicionais?: LPCAMM oferece uma solução mais compacta, energeticamente eficiente e de fácil manutenção. Pode substituir completamente RDIMM e LRDIMM tradicionais no futuro, potencialmente causando uma sacudida significativa no mercado de memória de servidor. Se LPCAMM substituir DIMMs tradicionais, pode anunciar uma grande transformação no cenário de memória de servidor.
O NVIDIA GB300 “Blackwell Ultra” está definido para elevar significativamente o teto de potência de computação de IA. Os aprimoramentos em núcleos de GPU, o suporte massivo de memória HBM3e e as atualizações abrangentes em resfriamento e gerenciamento de energia indicam que modelos grandes e computação em larga escala são as tendências imparáveis do futuro. Além disso, com a inclusão de LPCAMM e largura de banda de rede de 1.6 T, a eficiência de data centers em nuvem e centros de supercomputação será ainda mais aprimorada.
Está claro que a “corrida armamentista” pelo poder de computação da IA está apenas começando. Aqueles que assumirem a liderança em ecossistemas de hardware e software podem muito bem dominar a próxima onda da revolução da IA.