Quando nos aprofundamos no campo das redes de computação de IA, descobrimos que há duas arquiteturas principais no mercado: InfiniBand e RoCEv2.
Essas duas arquiteturas de rede competem entre si em termos de desempenho, custo, versatilidade e outras dimensões-chave. Analisaremos as características técnicas dessas duas arquiteturas, seus cenários de aplicação em redes de computação inteligente de IA e suas respectivas vantagens e limitações. Este artigo tem como objetivo avaliar o valor potencial da aplicação e a direção futura do desenvolvimento do InfiniBand e do RoCEv2 em redes de computação de IA, a fim de fornecer insights profundos e orientação profissional para a indústria.
InfiniBand
Arquitetura de rede As redes InfiniBand são gerenciadas principalmente centralmente por meio de um gerenciador de sub-rede (SM). O SM geralmente é implantado em um servidor conectado à sub-rede e atua como o controlador central da rede. Pode haver vários dispositivos configurados como SMs em uma sub-rede, mas apenas um é designado como o SM mestre, que é responsável por gerenciar todos os switches e placas de rede por meio da distribuição interna e upload de mensagem de dados de gerenciamento (MAD). Cada porta de placa de rede e chip de switch é identificado por um identificador exclusivo (ID local, LID) atribuído pelo SM para garantir a exclusividade e a precisão do dispositivo na rede. As principais responsabilidades do SM incluem manter as informações de roteamento da rede e calcular e atualizar a tabela de roteamento do chip de comutação. A função SM Agent (SMA) dentro da placa de rede permite que a placa de rede processe independentemente a mensagem enviada pelo SM sem a intervenção do servidor, melhorando assim a automação e a eficiência da rede.
Diagrama de arquitetura de rede InfiniBand
- Mecanismo de controle de fluxo de rede InfiniBand
A rede InfiniBand é baseada no mecanismo de crédito, e cada link é equipado com um buffer predefinido. O remetente começará a enviar dados somente após confirmar que o destinatário tem buffer suficiente, e a quantidade de dados enviados não pode exceder a capacidade máxima do buffer predefinido atualmente disponível para o destinatário. Quando a extremidade receptora recebe a mensagem, ela libera o buffer e informa a extremidade remetente do tamanho do buffer predefinido atualmente disponível, mantendo assim a operação suave da rede e a continuidade da transmissão de dados.
- Recursos da rede InfiniBand:
Controle de fluxo em nível de link e roteamento adaptativo As redes InfiniBand dependem de mecanismos de controle de fluxo em nível de link para evitar que dados excessivos sejam enviados, evitando, assim, estouro de buffer ou perda de pacotes de dados. Ao mesmo tempo, a tecnologia de roteamento adaptativo da rede InfiniBand pode executar seleção de roteamento dinâmico com base nas circunstâncias específicas de cada pacote de dados, alcançando otimização em tempo real dos recursos de rede e balanceamento de carga ideal em ambientes de rede de ultra-grande escala.
RoCEv2
Arquitetura de rede O protocolo RoCE (RDMA over Converged Ethernet) é um protocolo de comunicação de rede de cluster que pode executar RDMA (Remote Direct Memory Access) em Ethernet. Existem duas versões principais do protocolo: RoCEv1 e RoCEv2. Como um protocolo de camada de link, o RoCEv1 requer que ambas as partes comunicantes estejam localizadas na mesma rede de Camada 2. O RoCEv2 é um protocolo de camada de rede que usa a camada de rede Ethernet e a camada de transporte UDP para substituir a camada de rede InfiniBand, proporcionando assim melhor escalabilidade. Ao contrário do gerenciamento centralizado de redes InfiniBand, o RoCEv2 usa uma arquitetura puramente distribuída, geralmente consistindo de duas camadas, que tem vantagens significativas em escalabilidade e flexibilidade de implantação.
Diagrama de arquitetura da rede RoCEv2
- Mecanismo de controle de fluxo da rede RoCEv2
O Priority Flow Control (PFC) é uma estratégia de controle de fluxo hop-by-hop que faz uso total do cache do switch configurando corretamente a marca d'água para obter transmissão sem perdas em redes Ethernet. Quando o buffer de uma porta de switch downstream está sobrecarregado, o switch solicita ao dispositivo upstream que pare a transmissão. Os dados enviados serão armazenados no cache do switch downstream. Quando o cache retornar ao normal, a porta solicitará a retomada do envio de pacotes de dados, mantendo assim a operação suave da rede. A Explicit Congestion Notification (ECN) define um mecanismo de controle de fluxo e notificação de congestionamento de ponta a ponta com base na camada IP e na camada de transporte. O objetivo do controle de congestionamento é obtido pela transmissão de informações específicas de congestionamento para o servidor no switch e, em seguida, o servidor as envia ao cliente para notificar a extremidade de origem para desacelerar. A Data Center Quantized Congestion Notification (DCQCN) é uma combinação dos mecanismos Explicit Congestion Notification (ECN) e Priority Flow Control (PFC), projetada para oferecer suporte à comunicação Ethernet sem perdas de ponta a ponta. O conceito central é usar ECN para notificar o remetente para reduzir a taxa de transmissão quando ocorre congestionamento de rede, para evitar ativação desnecessária de PFC e para evitar estouro de buffer causado por congestionamento severo. Por meio desse controle de fluxo de granulação fina, o DCQCN é capaz de evitar perda de dados devido ao congestionamento, mantendo a operação eficiente da rede.
- Recursos da rede RoCEv2: forte compatibilidade e otimização de custos
As redes RoCE usam a tecnologia RDMA para obter transmissão de dados eficiente sem ocupar os ciclos de CPU de servidores remotos, utilizando assim totalmente a largura de banda e aprimorando a escalabilidade da rede. Essa abordagem reduz significativamente a latência da rede e aumenta a taxa de transferência, melhorando o desempenho geral da rede. Outra vantagem significativa da solução RoCE é que ela pode ser perfeitamente integrada à infraestrutura Ethernet existente, o que significa que as empresas podem obter um salto de desempenho sem ter que investir em novos equipamentos ou substituir equipamentos. Esse método de atualização de rede com boa relação custo-benefício é essencial para reduzir as despesas de capital de uma empresa, tornando o RoCE a solução preferida para melhorar o desempenho da rede em centros de computação inteligentes.
Diferenças técnicas entre InfiniBand e RoCEv2
As diversas demandas por redes no mercado levaram ao desenvolvimento conjunto das arquiteturas de rede InfiniBand e RoCEv2. As redes InfiniBand demonstraram vantagens significativas no desempenho do serviço da camada de aplicação devido às suas tecnologias avançadas, como desempenho de encaminhamento eficiente, tempo rápido de recuperação de falhas, escalabilidade aprimorada e eficiência de operação e manutenção. Em particular, elas podem fornecer excelente desempenho de throughput de rede em cenários de larga escala.
Gráfico de comparação de tecnologia de rede InfiniBand e RoCEv2
A rede RoCEv2 é favorecida por sua forte versatilidade e baixo custo. Ela não é apenas adequada para construir redes RDMA de alto desempenho, mas também perfeitamente compatível com a infraestrutura Ethernet existente. Isso dá à RoCEv2 vantagens óbvias em amplitude e aplicabilidade, e pode atender a aplicações de rede de diferentes escalas e necessidades. As respectivas características e vantagens dessas duas arquiteturas fornecem uma riqueza de opções para o design de rede de centros de computação de IA para atender às necessidades específicas de diferentes usuários.
Produtos relacionados:
- Compatível com NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850nm 30m em OM3/50m em OM4 MTP/MPO-12 Multimode FEC Optical Transceiver Module $650.00
- Compatível com NVIDIA MMA4Z00-NS-FLT 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $850.00
- Compatível com NVIDIA MMA4Z00-NS 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $750.00
- Compatível com NVIDIA MMS4X00-NM 800Gb/s Porta dupla OSFP 2x400G PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $1100.00
- Compatível com NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $1200.00
- Compatível com NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $800.00
- Mellanox MMA1T00-HS compatível com 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 Módulo transceptor óptico $200.00
- NVIDIA MCA7J60-N004 Compatível com 4m (13 pés) 800G OSFP de duas portas a 2x400G OSFP InfiniBand NDR Breakout Cabo de cobre ativo $800.00
- NVIDIA MCP7Y60-H01A Compatível com 1.5 m (5 pés) 400G OSFP para 2x200G QSFP56 Cabo de conexão direta passiva $116.00
- Mellanox MCP1600-E00AE30 Compatível com 0.5 m InfiniBand EDR 100G QSFP28 a QSFP28 Cabo de conexão direta de cobre $25.00
- Placa adaptadora NVIDIA Mellanox MCX653106A-ECAT-SP ConnectX-6 InfiniBand/VPI, HDR100/EDR/100G, porta dupla QSFP56, PCIe3.0/4.0 x16, suporte alto $828.00
- Placa adaptadora NVIDIA Mellanox MCX653105A-ECAT-SP ConnectX-6 InfiniBand/VPI, HDR100/EDR/100G, porta única QSFP56, PCIe3.0/4.0 x16, suporte alto $690.00