Visão geral
No ano passado, devido à redução nos gastos com computação de uso geral devido à computação em nuvem tradicional e aos pedidos de IA absorvidos pela NVIDIA, a AEC não se beneficiou totalmente das demandas de interconexão de alta velocidade, resultando em um mercado relativamente lento.
A partir do segundo semestre deste ano, à medida que os provedores de nuvem começaram a controlar suas implantações de rede de IA e a implantação de poder computacional de chip de desenvolvimento próprio aumentou, as vantagens do AEC (transmissão de média a alta distância, taxas de erro controláveis e custo-benefício) foram apreciadas por mais clientes, levando a um crescimento significativo.
Os principais demandantes, como AWS e X.AI, agora estão implantando AEC em larga escala para interconexões de alta velocidade dentro e entre gabinetes. Empresas como Microsoft, Google e firmas chinesas (Alibaba, ByteDance, etc.) também começaram a adotar AEC.
Nos próximos 1-2 anos, espera-se que o mercado de AEC experimente um trade-off entre volume e preço: rápida duplicação do volume e declínio gradual do preço. O espaço geral do mercado está definido para se expandir de forma constante, e o cenário competitivo se tornará mais diversificado.
Mudanças no mercado de AEC no último ano e meio
No ano passado, por volta de maio e junho, quando a NVIDIA lançou o GB200, houve discussões sobre o uso de conexões AEC (Active Electrical Cable), inclusive por empresas como a FiberMall. Naquela época, a Microsoft não estava muito satisfeita com o primeiro lote de AEC da FiberMall, então nenhum pedido grande foi feito. A indústria geralmente acreditava que o AEC tinha dificuldades em atender aos requisitos do data center em termos de distância e taxas de erro. Por que, então, essa tecnologia de repente se tornou popular um ano e meio depois, com grandes empresas como a Amazon agora fazendo pedidos?
Por que a AEC se tornou popular novamente
Anteriormente, a solução da NVIDIA usava cabos de cobre. No sistema GH200, a primeira camada consiste em oito placas interconectadas com o switch da primeira camada usando o que são chamados de “cartuchos”, que são essencialmente feixes de cabos de cobre. No passado, a NVIDIA não usava AEC, mas cabos de cobre passivos (DAC).
No entanto, redes tradicionais de computação em nuvem já usaram o AEC da FiberMall. No ano passado, por volta de fevereiro e março, muitos pedidos de AEC foram cortados pela Microsoft porque os negócios tradicionais de computação em nuvem foram espremidos por investimentos em IA, levando muitos pedidos a serem cancelados ou adiados.
Naquela época, o AEC era usado principalmente para taxas de velocidade média a baixa em data centers de computação de uso geral. A computação em nuvem tradicional reduziu o inventário e as despesas de capital, desviando fundos para projetos relacionados à IA. O ano passado não foi favorável para o AEC, pois o crescimento da IA foi integrado e empacotado pela NVIDIA (soluções de GPU+interconexão) e vendido para provedores de computação em nuvem, sem um lugar para o AEC. A NVIDIA usou DAC (Direct Attach Copper) e AOC (Active Optical Cables) com módulos ópticos multimodo.
Desde o segundo semestre deste ano, mais clientes (provedores de nuvem) começaram a construir suas redes de IA de forma independente, não confiando totalmente nas soluções empacotadas da NVIDIA. Consequentemente, a AEC viu um aumento na demanda, particularmente com pedidos notáveis da AWS.
Por que a NVIDIA persiste com ACC para interconexão em vez de optar por AEC?
A NVIDIA parece favorecer os cabos de cobre ativos (ACC) em vez dos AEC. Mas por que isso acontece?
Considerações sobre latência
AEC requer chips Retimer para retemporização de sinal, enquanto ACC utiliza amplificação Redriver mais simples, resultando em menor latência. NVIDIA prioriza latência, tornando ACC a opção mais atraente.
Implantação de alta densidade
As GPUs da NVIDIA têm alta densidade computacional, com distâncias curtas entre as placas dentro de um rack. O ACC, com sua baixa latência, é adequado para esse ambiente. A vantagem do AEC está no suporte a distâncias maiores (5-7 metros), adequado para clusters de chips com menor densidade computacional do que o da NVIDIA, como o Trainium2 da AWS, que requer AEC para interconectar muitas placas em distâncias maiores.
Diferenças de custo
A NVIDIA considera a diferença de custo entre ACC e AEC mínima. Embora o ACC possa ser um pouco mais barato, sua latência mais baixa se alinha melhor com o posicionamento de produto da NVIDIA. Da perspectiva dos provedores de serviços de nuvem, o AEC seria selecionado para distâncias maiores e estruturas de menor densidade.
Crescimento na demanda por AEC de vários fabricantes
AWS (Trainium2)
A AWS adquire aproximadamente 1.5 milhão de placas anualmente, a maioria interconectada usando AEC. O Trainium2, com menor poder computacional do que o H100 da NVIDIA, pode operar com 400G AEC (em vez de 800G). Com a possível introdução do Trainium3 até o final do ano, a demanda por 800G AEC pode aumentar. Atualmente, a FiberMall sozinha não consegue atender à demanda da AWS e está expandindo ativamente sua capacidade de produção de AEC.
Microsoft
Historicamente, a aquisição de AEC pela Microsoft tem sido estável, principalmente para uso em data centers de uso geral. A demanda relacionada à IA por AEC ainda não aumentou drasticamente. A Microsoft agora está começando a usar AEC para construir redes de IA, embora a taxa de crescimento seja mais lenta do que a da AWS.
Outros fabricantes
A X.AI demonstrou recentemente uma demanda significativa por AEC, com crescimento potencialmente ultrapassando o da Microsoft no próximo ano. Eles compram pesadamente placas NVIDIA, mas preferem soluções econômicas como AEC para interconexões de primeira camada. A interconexão TPU (ICI) do Google atualmente usa cabos de cobre passivos (DAC); no entanto, conforme as velocidades aumentam, eles podem fazer a transição para AEC. Na China, empresas como Alibaba e ByteDance também estão considerando ou começaram a adotar AEC.
A relação entre AEC e módulos ópticos: substitutivos ou complementares?
Estrutura em camadas
Em uma rede de IA, as interconexões podem ser dispostas em camadas da seguinte forma:
Placa GPU/Aceleradora ↔ Interruptor Topo-de-Rack (ToR)
ToR ↔ Interruptores de nível superior
Para a primeira camada (dentro de um rack), onde as distâncias são curtas, várias opções de cabeamento, como cabos de cobre, AEC, ACC, DAC e AOC são viáveis. Módulos ópticos são normalmente usados para distâncias maiores, entre racks.
Efeito de substituição limitado
A troca de cabos de cobre passivos (DAC) para AEC não afeta os módulos ópticos. No entanto, o AEC pode substituir parcialmente os AOC (cabos ópticos ativos de curta distância) ou módulos ópticos multimodo, mas fabricantes como a NVIDIA provavelmente não abandonarão as soluções ópticas completamente.
No geral, embora o AEC possa capturar alguma fatia de mercado do AOC ou módulos ópticos multimodo, a extensão depende de fatores como necessidades de cabeamento, latência, custo e considerações de manutenção. Previsões precisas são desafiadoras sem detalhes de design específicos de vários fabricantes. As informações atuais de pedidos sugerem que o AEC não impactará significativamente a fatia de módulos ópticos.
Tamanho do mercado e perspectivas para AEC
Taxa de crescimento
O mercado de AEC deste ano está avaliado em menos de US$ 300 milhões, com expectativas de dobrar para cerca de US$ 600 milhões no ano que vem. Os volumes de embarques podem aumentar de 1 a 2 milhões de unidades deste ano para 5 milhões de unidades no ano que vem, acompanhados por uma queda de preço.
Tendências de preço
Atualmente, o AEC 400G custa aproximadamente US$ 150, enquanto o AEC 800G custa cerca de US$ 250. Com mais fabricantes entrando no mercado, a concorrência reduzirá os preços em cerca de 20% ao ano. A entrada de fabricantes chineses pressionará ainda mais as margens de lucro, levando a reduções gerais de preços.
Análise do cliente
- AWS: Espera-se que seja o maior contribuidor para o crescimento, com mais de 2 milhões de unidades até o final deste ano e do próximo.
- Microsoft: O crescimento incremental permanece estável, principalmente na computação em nuvem e em algumas redes de IA.
- X.AI: Experimentando rápido crescimento, potencialmente exigindo 800,000-900,000 unidades anualmente.
- Google/NVIDIA: Apenas pequenas atualizações estão planejadas.
- Alibaba, ByteDance, etc. da China: adoção gradualmente crescente, contribuindo para uma tendência geral de crescimento.
Estudo de caso: Interconexão de X.AI com GB200/B300
A X.AI comprou vários chips GB200 ou B300 da NVIDIA. No entanto, a NVIDIA usa cabos de cobre passivos ou ACC para sua interconexão interna de 72 placas, não AEC. Então, onde a X.AI usa AEC?
Dentro de um rack de GPU (72 placas), a conexão entre as placas e o switch Top-of-Rack (ToR) requer comprimentos de cabo de vários metros a mais de 5 metros. O AEC pode suportar comprimentos de 5 a 7 metros. Para gabinetes grandes de alta densidade, onde os cabos de cobre precisam ser dobrados e enrolados, comprimentos de 3 a 5 metros ou mais são frequentemente necessários. Quando o ACC ou DAC não atendem aos requisitos ou resultam em taxas de erro mais altas, o AEC é necessário. Os links do topo do gabinete para outros switches podem usar módulos ópticos. Portanto, o AEC é utilizado para a conexão de dentro do gabinete para o switch ToR.
Interconexão TPU do Google
Nos clusters TPU do Google, 64 chips formam um “Cubo” (semelhante a um gabinete), com interconexões internas usando ICI. Atualmente, cabos de cobre passivos são predominantemente usados.
Uso atual do DAC
No Google TPU v6, dentro de um único gabinete de 64 chips, as interconexões ICI são principalmente DAC.
Atualização potencial para AEC
À medida que a velocidade aumenta, a distância e as taxas de erro do DAC podem ficar aquém, exigindo soluções ativas como o AEC para garantir a qualidade da transmissão.
Impacto limitado em módulos ópticos
As conexões dentro do gabinete não são de longa distância, então este não é o campo de batalha principal para módulos ópticos; conexões entre gabinetes normalmente requerem módulos ópticos ou OCS.
Taxa de substituição de AEC para módulos ópticos
O uso generalizado do AEC reduzirá significativamente os pedidos de módulos ópticos?
No geral, o impacto é limitado. Os módulos ópticos são usados principalmente para cenários de longa distância e entre gabinetes. Para a primeira camada ou algumas interconexões de curta distância, a escolha pode ser entre DAC, AOC ou AEC. Mesmo dentro do mesmo data center, os clientes podem usar uma mistura de soluções diferentes. O AEC não substituirá completamente o AOC ou os módulos ópticos. A taxa de substituição específica depende de fatores como design de topologia do cliente, preço, custos de manutenção e requisitos de latência.
Adoção de AEC por fabricantes chineses
ByteDance e Alibaba começarão a adotar AEC? E para quais chips ele pode ser usado?
ByteDance
A ByteDance está comprando chips de vários fornecedores, incluindo Cambricon e NVIDIA, com várias placas dispostas em paralelo. Vários fornecedores também fornecem soluções de cabo de cobre. Para Cambricon, empresas como Broadex Technologies estão fornecendo AEC e AOC.
Alibaba
O Alibaba está começando a adotar o AEC 400G, potencialmente atingindo dezenas de milhares de unidades ou mais, dependendo da capacidade da cadeia de suprimentos de atender à demanda.
Estimativa de preço e perspectiva
Com a expectativa de que os volumes de AEC aumentem de duas a três vezes no ano que vem, os preços podem cair.
Enquanto o volume geral está aumentando rapidamente, os preços unitários provavelmente diminuirão até certo ponto. O mercado deste ano é de aproximadamente US$ 200-300 milhões, potencialmente atingindo US$ 600 milhões no ano que vem, com alto crescimento contínuo nos anos seguintes. À medida que mais fabricantes entram na competição, os preços continuarão a cair, e a estrutura do mercado passará por uma reorganização.