AMD: Pioneira no Futuro dos Mercados de Refrigeração Líquida para IA

No cenário em rápida evolução da infraestrutura de IA, a AMD está emergindo como uma empresa inovadora, especialmente em tecnologias de resfriamento líquido. À medida que os data centers expandem os limites de desempenho e eficiência, os avanços mais recentes da AMD estão estabelecendo novos padrões. A FiberMall, fornecedora especializada em produtos e soluções de comunicação óptica, está comprometida em fornecer soluções econômicas para data centers globais, ambientes de computação em nuvem, redes corporativas, redes de acesso e sistemas sem fio. Reconhecida por sua liderança em redes de comunicação habilitadas para IA, a FiberMall é a parceira ideal se você busca soluções de comunicação óptica de alta qualidade e valor agregado. Para mais detalhes, visite o site oficial ou entre em contato diretamente com a equipe de suporte ao cliente.

Este blog explora os desenvolvimentos inovadores da AMD em resfriamento líquido para IA, desde clusters de GPU massivos até a inovadora série MI350. Seja você um entusiasta de IA, operador de data center ou investidor em tecnologia, esses insights destacam por que a AMD está se tornando o catalisador da próxima era da computação de IA.

TensorWave implementa o maior cluster de servidores AMD refrigerados a líquido da América do Norte

A TensorWave, uma estrela em ascensão em infraestrutura de IA, anunciou recentemente a implantação bem-sucedida do maior cluster de treinamento de GPU AMD da América do Norte. Equipada com 8,192 aceleradores de GPU Instinct MI325X, esta configuração marca o primeiro cluster de resfriamento líquido direto (DLC) em larga escala a utilizar este modelo de GPU.

cluster refrigerado a líquido

O foco da TensorWave no hardware de ponta da AMD possibilita plataformas de computação eficientes para empresas, instituições de pesquisa e desenvolvedores. Este cluster colossal não apenas estabelece um recorde de escala, mas também injeta um novo impulso no desenvolvimento de IA. Analistas do setor observam que os clusters baseados em AMD oferecem excelente custo-benefício — potencialmente economizando até 30% em comparação com Sistemas DGX da NVIDIA para poder de computação equivalente.

À medida que mais organizações adotam GPUs AMD, os custos de infraestrutura de IA podem cair ainda mais, acelerando a adoção da IA em todos os setores. Para necessidades de comunicação óptica em configurações de alto desempenho, a FiberMall fornece soluções confiáveis e otimizadas para IA para garantir uma transmissão de dados perfeita.

AMD revela chip MI350 com arquitetura de resfriamento líquido completo

AMD revela chip MI350 com arquitetura de resfriamento líquido completa, gerando entusiasmo do mercado

Em 12 de junho de 2025, a AMD sediou a conferência "Advancing AI 2025" em San Jose, Califórnia, onde lançou oficialmente os aceleradores de GPU da série Instinct MI350. Essas GPUs permitem clusters de computação em ultra larga escala por meio da colaboração entre várias placas, com nós únicos suportando até oito placas em paralelo, fornecendo 2,304 GB de memória HBM3E. O desempenho atinge picos de mais de 80.5 PFlops na precisão de FP8 e 161 PFlops na computação de baixa precisão de FP6/FP4, rivalizando com o GB200 da NVIDIA.

A conectividade entre placas utiliza canais Infinity Fabric bidirecionais, enquanto as conexões de CPU utilizam PCIe 128 de 5.0 GB/s para transferência de dados sem gargalos. A AMD oferece versões com refrigeração a ar e a líquido; a refrigeração a ar suporta até 64 placas, enquanto a refrigeração líquida é escalável para 128 placas (racks 2U-5U) para diversas necessidades de supercomputação.

MI350
MI355
solução comprovada em escala de rack

O módulo MI350X consome 1,000 W com refrigeração a ar, enquanto o MI355X de alto desempenho atinge 1,400 W, utilizando principalmente refrigeração líquida. Parceiros como Supermicro, Pegatron e Gigabyte já lançaram servidores com refrigeração líquida da série MI350.

O módulo MI350X consome 1,000 W com refrigeração a ar
refrigerado a ar
mercado global de chips de IA de ponta

No mercado global de chips de IA de ponta, a NVIDIA detém mais de 80% de participação, mas o ressurgimento do MI350 da AMD — igualando o desempenho do GB200 — sinaliza uma mudança. Para ecossistemas de refrigeração líquida, o progresso da AMD oferece alternativas ao domínio da NVIDIA, promovendo uma competição mais saudável. Os principais provedores de nuvem, incluindo grandes hiperescaladores e a Neo Cloud, integrarão o MI350, com Dell, HPE e Supermicro seguindo o exemplo. A produção em massa começou no início deste mês, com os servidores de parceiros iniciais e instâncias CSP programados para o terceiro trimestre de 3 — muitos favorecendo refrigerado a líquido variantes.

habilitado para IA

A experiência da FiberMall em redes ópticas habilitadas para IA complementa essas implantações, fornecendo interconexões econômicas para clusters de IA de alta largura de banda.

O impacto da AMD no mercado de refrigeração líquida

O quase monopólio da NVIDIA vinculou os avanços em refrigeração líquida ao seu ecossistema, incluindo listas de permissões restritivas que afastam parceiros. Os clusters de refrigeração líquida em larga escala da AMD e o lançamento do MI350 são uma vantagem, potencialmente desafiando a NVIDIA, juntamente com concorrentes como a Huawei. Isso poderia revigorar os fornecedores de refrigeração líquida fora da órbita da NVIDIA.

A AMD afirma que o MI350 aumentará a eficiência energética da plataforma de IA em 38 vezes em cinco anos, com planos para outra melhoria de 20 vezes até 2030, reduzindo o uso de energia em até 95%.

Análise aprofundada: chips AMD série MI350, OAM, UBB, servidores refrigerados a líquido e implantações em rack

Na Advancing AI 2025, a AMD apresentou a série Instinct MI350, incluindo MI350X e MI355X, pronta para competir de frente com o Blackwell da NVIDIA.

1771-2585c4d9a774b14c07552820192fdd11

Visão geral do Instinct MI350

Ambos os modelos contam com 288 GB de memória HBM3E com largura de banda de 8 TB/s. O MI355X oferece desempenho máximo: FP64 com 79 TFlops, FP16 com 5 PFlops, FP8 com 10 PFlops e FP6/FP4 com 20 PFlops, com TDP de até 1,400 W. O MI350X é reduzido em 8%, atingindo o pico de 18.4 PFlops no FP4 com TDP de 1,000 W.

Chips AMD Instinct Série MI350

O MI350X e o MI355X compartilham um design de chip, construído em uma arquitetura de ligação híbrida 3D usando os processos de 3 nm (N3P) e 6 nm da TSMC.

Pacote AMD-Instinct-MI350
AMD-Instinct-MI350-Pacote-Ângulo

Comparação: AMD MI350X vs. NVIDIA B200/GB200

ParâmetroAMD MI350XNVIDIA B200NVIDIAGB200
ArquiteturaCDNA 4 (ligação híbrida 3D)Blackwell (Integração de matriz dupla)CPU Blackwell + Grace (Dual B200 + 1 Grace)
Nó de processoEmbalagem híbrida TSMC 3nm (N3P) + 6nm (IOD)TSMC 4 nm (N4P)TSMC 4 nm (N4P)
Transistores185 bilhões208 bilhões416 bilhões (Dual B200)
Configuração de memória288 GB HBM3E (12 Hi Stack), largura de banda de 8 TB/s192 GB HBM3E (8 Hi Stack), largura de banda de 7.7 TB/s384 GB HBM3E (Dual B200), largura de banda de 15.4 TB/s
FP4 Compute18.4 PFLOPS (36.8 PFLOPS esparsos)20 PFLOPS (FP4 Denso)40 PFLOPS (Duplo B200)
FP8 Compute9.2 PFLOPS (18.4 PFLOPS esparsos)10 PFLOPS20 PFLOPS
FP32 Compute144 TFLOPS75 TFLOPS150 TFLOPS
FP64 Compute72 TFLOPS (2x B200 Precisão Dupla)37 TFLOPS74 TFLOPS
InterconexãoInfinity Fabric de 153.6 GB/s (8 placas/nó), Ultra Ethernet para 128 placas1.8 TB/s NVLink 5.0 (por placa), 576 placas em NVL721.8 TB/s NVLink 5.0 (por B200), 129.6 TB/s bidirecional em cluster de 72 placas
Consumo de energia1000 W (Resfriado a Ar)1000 W (resfriado a líquido)2700W (Dual B200 + Grace)
Ecossistema de softwareROCm 7 com otimização PyTorch/TensorFlow, suporte FP4/FP6CUDA 12.5+ com precisão FP4/FP8, inferência TensorRT-LLMCUDA 12.5+ com otimização de CPU Grace para modelos de trilhões de parâmetros
Desempenho típicoLlama 3.1 405B Inferência 30% mais rápido que B200; FP8 de 4 cartas a 147 PFLOPSTreinamento GPT-3 4x H100; Inferência FP4 de cartão único 5x H10072-Card NVL72 FP4 a 1.4 EFLOPS; Custo de inferência 25% menor que H100
Preço (2025)US$ 25,000 (aumento recente de 67%, ainda 17% abaixo de B200)$30,000$ 60,000+ (Dual B200 + Graça)
Eficiência30% mais largura de banda HBM por Watt; 40% mais tokens por dólar do que B20025% mais FP4 por transistor; 50% mais eficiência NVLink14.8 PFLOPS/W em resfriamento líquido para FP4
DiferenciaçãoInferência de precisão dupla FP6/FP4 exclusiva; 288 GB para modelos de parâmetro 520BTransformer Engine de 2ª geração para FP4; RAS em nível de chip para confiabilidadeGrace CPU Unified Memory; Mecanismo de descompressão para carregamento de dados

O MI350X possui 60% mais memória que o B200 (192 GB) com largura de banda equivalente. Ele lidera em FP64/FP32 por ~1x, em FP6 por até 1.2x e em baixa precisão por ~10%. A inferência corresponde ou excede em 30%, e o treinamento é comparável ou 10% superior no ajuste fino do FP8 — tudo com maior custo-benefício (40% mais tokens por dólar).

AMD Instinct MI350 OAM

O formato OAM é compacto, com um PCB espesso semelhante ao MI325X.

AMD-Instinct-MI350-OAM-Pacote-800x522

AMD Instinct MI350 UBB

Aqui está o pacote MI350 OAM instalado em um UBB junto com outras sete GPUs, totalizando oito.

AMD Instinct MI350 com GPU UBB 8 sem resfriamento 2

AMD Instinct MI350 com GPU UBB 8 sem resfriamento 2

Aqui está outro ângulo disso.

AMD Instinct MI350 com GPU UBB 8 sem resfriamento 1

AMD Instinct MI350 com GPU UBB 8 sem resfriamento 1

Aqui está uma olhada em todo o UBB com oito GPUs instaladas.

GPU AMD Instinct MI350 UBB 8 sem resfriamento

GPU AMD Instinct MI350 UBB 8 sem resfriamento

Em muitos aspectos, ela é semelhante à placa-mãe AMD Instinct MI325X da geração anterior, e esse é o ponto.

AMD Instinct MI350 com GPU UBB 8 sem resfriamento 3

AMD Instinct MI350 com GPU UBB 8 sem resfriamento 3

Em uma extremidade, temos os conectores UBB e um dissipador de calor para os retimers PCIe.

Retemporizadores AMD Instinct MI350X UBB PCIe

Há também um SMC para gerenciamento.

AMD Instinct MI350 SMC

AMD Instinct MI350 SMC

Além da placa em si, há também o resfriamento.

Refrigeração a ar AMD Instinct MI350X

Aqui está um módulo OAM com um grande dissipador de calor com refrigeração a ar. Este resfriamento a ar é o AMD Instinct MI350X.

Refrigerador AMD Instinct MI350X

Refrigerador AMD Instinct MI350X

Aqui estão oito deles no UBB. É semelhante ao que vimos acima, só que com os oito grandes heatsins.

GPU AMD Instinct MI350X UBB 8

GPU AMD Instinct MI350X UBB 8

Aqui está outra visão dos dissipadores de calor do lado do SMC e da alça.

Perfil do dissipador de calor da GPU AMD Instinct MI350X UBB 8

Perfil do dissipador de calor da GPU AMD Instinct MI350X UBB 8

Para referência, aqui está o UBB do AMD MI300X:

MI300X 8 GPU OAM UBB 1

AMD MI300X 8 GPU OAM UBB 1

A AMD também tem a versão MI355X com refrigeração líquida, que permite maior TDP e maior desempenho por placa.

Servidores AI da série AMD MI350

Os parceiros incluem Supermicro (4U/2U refrigerado a líquido, até oito MI355X), Compal (7U, até oito) e ASRock (4U, oito MI355X).

Implantações de rack MI350

Nós únicos com até oito placas (2,304 GB de memória, até 161 PFlops FP6/FP4). O resfriamento a ar pode acomodar até 64 placas; o resfriamento líquido, até 128. Uma configuração de 128 placas oferece 36 TB de memória e até 2.57 PFlops FP6/FP4.

Conclusão: A revolução do resfriamento líquido da AMD

A série MI350 da AMD e o cluster TensorWave destacam uma mudança fundamental no resfriamento líquido para IA, desafiando monopólios e impulsionando a eficiência. À medida que a demanda por IA aumenta, essas inovações prometem economia de custos e escalabilidade.

A FiberMall está pronta para oferecer suporte à sua infraestrutura de IA com soluções de comunicação óptica de ponta. Visite nosso site ou entre em contato com o suporte ao cliente para obter aconselhamento personalizado.

Deixe um comentário

Voltar ao Topo