Switches de Data Center: Cenário Atual e Tendências Futuras

À medida que a inteligência artificial (IA) impulsiona o crescimento exponencial em volumes de dados e complexidade de modelos, a computação distribuída aproveita nós interconectados para acelerar os processos de treinamento. Os switches de data center desempenham um papel fundamental para garantir a entrega oportuna de mensagens entre os nós, particularmente em data centers de grande porte, onde a latência de cauda é crítica para lidar com cargas de trabalho competitivas. Além disso, a escalabilidade e a capacidade de gerenciar vários nós são essenciais para treinar grandes modelos de IA e processar conjuntos de dados massivos, tornando os switches de data center indispensáveis para conectividade de rede e transmissão de dados eficientes. De acordo com a IDC, o mercado global de switches atingiu US$ 308 bilhões em 2022, refletindo um crescimento anual de 17%, com uma taxa de crescimento anual composta (CAGR) projetada de 4.6% de 2022 a 2027. Na China, o mercado de switches foi avaliado em US$ 59.1 bilhões, crescendo 9.5%, com um CAGR previsto de 7% a 9% nos próximos cinco anos, superando o crescimento global.

Crescimento e previsão da escala de computação inteligente da China

Principais classificações de switches de data center

Os switches de data center podem ser categorizados com base em vários critérios, incluindo cenários de aplicação, camadas de rede, tipos de gerenciamento, modelos de rede OSI, velocidades de porta e estruturas físicas. As classificações incluem:

  • Por cenário de aplicação: switches de campus, switches de data center
  • Por camada de rede: switches de acesso, switches de agregação, switches de núcleo
  • Por tipo de gerenciamento: switches não gerenciados, switches gerenciados pela web, switches totalmente gerenciados
  • Por modelo de rede OSI: switches de camada 2, switches de camada 3
  • Por velocidade de porta: switches Fast Ethernet, switches Gigabit Ethernet, switches de 10 Gigabit, switches multitaxa
  • Por estrutura física: interruptores fixos (caixa), interruptores modulares (chassi)

Chips de switch e principais métricas de desempenho

Os switches Ethernet para data centers são compostos por componentes críticos, como chips, PCBs, módulos ópticos, conectores, componentes passivos, gabinetes, fontes de alimentação e ventiladores. Os componentes principais incluem chips de switch Ethernet e CPUs, além de elementos adicionais como PHYs e CPLD/FPGAs. O chip do switch Ethernet, projetado especificamente para otimização de redes, lida com o processamento de dados e o encaminhamento de pacotes, apresentando caminhos lógicos complexos para garantir um tratamento robusto dos dados. A CPU gerencia logins e interações de protocolo, enquanto o PHY processa dados da camada física.

O desempenho dos switches de data center depende de métricas importantes, como largura de banda do backplane, taxa de encaminhamento de pacotes, capacidade de comutação, velocidade e densidade de portas. A largura de banda do backplane indica a capacidade de transferência de dados de um switch, com valores mais altos significando melhor desempenho sob cargas pesadas. Para encaminhamento sem bloqueio, a largura de banda do backplane deve ser pelo menos igual à capacidade de comutação (calculada como número de portas × velocidade da porta × 2 no modo full-duplex). Switches de ponta com projetos sem backplane dependem de taxas de encaminhamento de pacotes. Velocidades de porta mais altas indicam capacidades de processamento superiores para cenários de alto tráfego, enquanto uma maior densidade de portas suporta escalas de rede maiores conectando mais dispositivos.

Arquitetura de processamento de pacotes de chip de switch Ethernet

Os chips de switch Ethernet funcionam como ASICs especializados para switches de data center, frequentemente integrando controladores MAC e chips PHY. Os pacotes de dados entram por portas físicas, onde o analisador do chip analisa os campos para classificação de fluxo. Após as verificações de segurança, os pacotes passam por comutação de Camada 2 ou roteamento de Camada 3, com o classificador de fluxo direcionando os pacotes para filas priorizadas com base nos padrões 802.1P ou DSCP. Os escalonadores então gerenciam a priorização das filas usando algoritmos como Weighted Round Robin (WRR) antes de transmitir os pacotes.

Ilustração de interruptor fixo

Fisicamente, os switches de data center são baseados em chassis ou fixos. Os switches de chassis apresentam um design modular com slots para módulos de interface, controle e comutação, oferecendo alta flexibilidade e escalabilidade. Os switches fixos possuem designs integrados com configurações de portas fixas, embora alguns suportem interfaces modulares. As principais diferenças residem na arquitetura interna e nos cenários de aplicação (uso da camada OSI).

Switches modulares e fixos se destacam em seus respectivos domínios para atender a diversos requisitos de cenários

Evolução e Avanços Tecnológicos em Switches de Data Center

De OEO a OOO: Switches totalmente ópticos para cargas de trabalho de IA

Os switches atuais de data center, baseados em chips ASIC, operam como switches de circuitos de pacotes óptico-elétrico-óptico (OEO), contando com chips ASIC para o encaminhamento de pacotes principais. Esses switches exigem conversões ópticas para elétricas para a transmissão de sinais. No entanto, switches totalmente ópticos (OOO) estão surgindo para atender às demandas computacionais orientadas por IA, reduzindo a sobrecarga de conversão e aumentando a eficiência.

Diagrama esquemático do switch totalmente óptico OOO

Executivo da NVIDIA se junta à Lightmatter para promover a comutação totalmente óptica

Em julho de 2024, a vice-presidente da NVIDIA, Simona Jankowski, ingressou na Lightmatter como CFO, sinalizando o foco da empresa em interconexões ópticas. Avaliada em US$ 4.4 bilhões, a tecnologia Passage da Lightmatter utiliza fotônica para interconexões de chips, usando guias de onda em vez de fibra óptica para fornecer transmissão de dados paralela de alta largura de banda para diversos núcleos de computação, aumentando significativamente o desempenho da rede de IA.

passagem de matéria leve

Implantação em larga escala de switches OCS do Google

As redes de data center do Google enfatizam redes definidas por software (SDN), topologia Clos e chips de comutação comuns. A topologia Clos, uma arquitetura multiestágio não bloqueante construída a partir de chips radix menores, oferece suporte a redes escaláveis essenciais para cargas de trabalho de IA.

Arquitetura de rede Apollo do Google e switches OCS

O Google foi pioneiro no uso em larga escala de Comutadores de Circuito Óptico (OCS) em sua arquitetura Jupiter, integrando OCS baseados em MEMS para reduzir as conversões ópticas para elétricas. Na OFC 2023, o Google apresentou seu projeto Apollo, substituindo os Comutadores de Pacotes Ethernet (EPS) da camada espinhal por OCS para maior eficiência.

Principais tecnologias e padrões para switches de data center

  • RDMA: Habilitando comunicação de baixa latência e alto rendimento

O Acesso Direto à Memória Remoto (RDMA) permite comunicação de rede de alta taxa de transferência e baixa latência, ignorando o envolvimento do sistema operacional. Ao contrário do TCP/IP tradicional, que requer múltiplas cópias de dados com uso intensivo da CPU, o RDMA transfere dados diretamente entre as memórias dos computadores. Em switches de data center, o RDMA é implementado via InfiniBand e RoCE (RDMA sobre Ethernet Convergente), com InfiniBand e RoCEv2 sendo as soluções dominantes para data centers de IA (AIDCs).

  • InfiniBand: Projetado para computação de alto desempenho (HPC) e data centers, o InfiniBand oferece alta largura de banda, baixa latência, qualidade de serviço (QoS) e escalabilidade. Sua arquitetura canalizada, suporte a RDMA e design de rede comutada o tornam ideal para aplicações com uso intensivo de dados. No entanto, seu alto custo limita sua adoção a ambientes HPC especializados.

Comparação entre InfiniBand e RoCE

Categoria Banda Infini RoCE
Filosofia do Design Projetado com RDMA em mente, redefinindo camadas de link físico e redeImplementa RDMA sobre Ethernet (RoCEv1: camada de enlace; RoCEv2: camada de transporte)
Tecnologia Chave – Protocolo e arquitetura de rede InfiniBand
– Interface de programação de verbos
– Implementação baseada em UDP/IP
– Descarregamento de hardware (RoCEv2) para reduzir a utilização da CPU
– Roteamento IP para escalabilidade
Vantagens – Maior largura de banda e menor latência
– Controle de fluxo baseado em crédito garantindo estabilidade de dados
- Custo-beneficio
– Compatível com Ethernet padrão
– Suporta implantação em larga escala
Desvantagens – Escalabilidade limitada
– Requer NICs e switches especializados
– Os desafios de implementação permanecem
– Requer NICs compatíveis com RoCE
Custo​ Mais alto (NICs/switches IB dedicados; custos de cabeamento excedem Ethernet)Inferior (utiliza switches Ethernet padrão; econômico)
Casos de uso HPC, processamento paralelo em larga escala, treinamento de IAComunicação interna do data center, provedores de serviços em nuvem
Principais fornecedores NVIDIA (fornecedor principal)Suporte a vários fornecedores (por exemplo, Huawei, H3C, Inspur, Ruijie na China)
  • RoCE: O RoCEv2, construído na camada UDP da Ethernet, introduz protocolos IP para escalabilidade e utiliza offload de hardware para reduzir o uso da CPU. Embora tenha um desempenho ligeiramente inferior ao InfiniBand, o RoCEv2 é econômico, tornando-o adequado para comunicações em data centers e serviços em nuvem.

RDMA reduz a latência de comunicação entre placas

No treinamento de IA distribuída, reduzir a latência da comunicação entre placas é fundamental para melhorar as taxas de aceleração. O tempo total de computação inclui computação em uma única placa e comunicação entre placas, com RDMA (via InfiniBand ou RoCEv2) minimizando a latência ao ignorar as pilhas de protocolos do kernel. Testes de laboratório mostram que o RDMA reduz a latência de ponta a ponta de 50 µs (TCP/IP) para 5 µs (RoCEv2) ou 2 µs (InfiniBand) em cenários de salto único.

  • InfiniBand vs. RoCEv2: O InfiniBand suporta clusters de GPU em larga escala (até 10,000 placas) com degradação mínima de desempenho e menor latência do que o RoCEv2, mas tem um custo mais alto, com a NVIDIA dominando mais de 70% do mercado. O RoCEv2 oferece compatibilidade mais ampla e custos mais baixos, suportando redes RDMA e Ethernet tradicionais, com fornecedores como H3C e Huawei liderando o mercado.
  • O crescente impulso da Ethernet: De acordo com o Dell'Oro Group, os gastos com switches para redes de backend de IA ultrapassarão US$ 100 bilhões entre 2025 e 2029. A Ethernet está ganhando força em clusters de IA de larga escala, com implementações como o Colossus da xAI adotando a Ethernet. Até 2027, a Ethernet deverá ultrapassar a InfiniBand em participação de mercado.
  • Avanço Ethernet da NVIDIA: Em julho de 2023, o Consórcio Ultra Ethernet (UEC), incluindo AMD, Arista, Broadcom, Cisco, Meta e Microsoft, foi formado para desenvolver soluções de rede de IA baseadas em Ethernet. A NVIDIA aderiu em julho de 2024, com sua plataforma Spectrum-X, que impulsionou o desempenho da rede de IA em 1.6x em comparação com a Ethernet tradicional. A NVIDIA planeja atualizações anuais do Spectrum-X para aprimorar ainda mais o desempenho da Ethernet de IA.

Deixe um comentário

Voltar ao Topo