Interconexão Óptica em Redes de Computação de Alto Desempenho

Em 23 de maio, a quarta sessão do Fórum de Desenvolvimento de Alta Qualidade da China 2024, organizado conjuntamente pela CIOE (China International Optoelectronic Expo) e pela C114 Communications Network, foi realizada com sucesso sobre o tema “Era da IA: Novas Tendências na Interconexão Óptica de Data Centers”. Tecnologia". O arquiteto de interconexão óptica da JD, Chen Cheng, compartilhou um discurso sobre “Interconexão óptica em redes de computação de alto desempenho” na reunião.

JD começou cedo na área de redes de computação de alto desempenho e continuou a investir pesadamente em múltiplas gerações de topologias de computação inteligentes. Os cenários de aplicação envolvem algoritmos de recomendação, atendimento inteligente ao cliente, vendas e leasing de IA, transmissão humana digital ao vivo e muito mais.

A topologia de rede de computação inteligente é geralmente dividida em duas redes independentes: a rede de acesso/armazenamento, que realiza principalmente a interconexão entre CPUs; A segunda é a rede de computação, que realiza principalmente a coordenação paralela dos dados do nó da GPU. No geral, os requisitos das redes de computação inteligentes para interconexão óptica concentram-se principalmente em três aspectos, nomeadamente grande largura de banda, baixo custo e baixa latência.

A relação entre transceptores ópticos e grande largura de banda

Em termos de largura de banda do link de dados, a primeira coisa a conseguir é a comunicação paralela multicanal entre GPUs. Deve-se prestar atenção à largura de banda do link durante a transmissão de dados. Na interconexão interna de nós de computação, o método C2C Full mesh geralmente pode ser usado, e a taxa de conexão pode atingir centenas de GB/s.

Se você deseja obter comunicação entre diferentes exportações de GPU, é necessário conectar o transceptor óptico à placa de rede por meio de PCle e, em seguida, obter conexão entre portas por meio de transceptor óptico e redes de computação após a conversão serial para paralelo. Portanto, muitos fabricantes estão atualmente defendendo a forma de entrada/saída óptica (OIO) para romper o gargalo da interconexão de alta velocidade, que também é uma tendência de desenvolvimento atualmente.

Em termos de evolução dos equipamentos de rede/largura de banda do transceptor óptico, a atual rede de computação inteligente implanta principalmente switches Serdes 50G e transceptores ópticos, e o principal tipo de transceptor óptico é 200G/400G. Quando a capacidade de um único nó atingir 51.2T, diferentes tipos de topologia serão selecionados com base nos requisitos de escalabilidade da rede. Alguns fabricantes norte-americanos escolherão 64x800G OSFP, enquanto os fabricantes nacionais usarão embalagens 128x400G QSFP 112, com cadeias industriais universais dos dois.

Evolução da largura de banda do equipamento de rede/transceptor óptico

Evolução da largura de banda do equipamento de rede/transceptor óptico

Se a capacidade de comutação de chip único atingir 102.4T no futuro, o transceptor óptico conectável ainda poderá suportar aplicações de interconexão óptica de alta densidade e alta capacidade, e 64×1.6T OSFP e QSFP224-DD poderão ser selecionados. CPO também é uma das soluções populares. Ele continua resolvendo problemas de confiabilidade e também resolve problemas de manutenção durante a construção e implantação.

Como reduzir o custo da interconexão óptica?

Na questão da redução do custo da interconexão óptica, a tecnologia fotônica baseada em silício é uma das soluções potenciais de redução de custos. A fotônica de silício não é uma tecnologia totalmente nova, mas é um produto relativamente novo em termos de aplicações de data center. A atual cadeia de fornecimento upstream de módulos de 112G por pista está concentrada em um pequeno número de fabricantes de dispositivos ópticos, de modo que módulos fotônicos de silício podem ser envolvidos para resolver o problema de escassez de fornecimento.

Em particular, os transceptores ópticos de silício podem cobrir as necessidades de todos os cenários de aplicação de data center em um raio de 2 km, de modo que JD também está realizando a certificação correspondente e outros trabalhos. Acredita-se que eles possam ser verdadeiramente implantados na rede atual num futuro próximo.

Os transceptores ópticos lineares de acionamento direto LPO/LRO também são tendências de aplicação populares atualmente. Na era 112G por pista, com a ajuda da forte capacidade de condução do ASIC, os transceptores ópticos podem ser simplificados, ou seja, a parte DSP ou CDR pode ser removida, reduzindo assim a complexidade do transceptor óptico para atingir o objetivo de reduzir custos .

No entanto, também enfrenta alguns desafios, como problemas de compatibilidade e interoperabilidade. É necessário considerar o suporte de chips ASIC, a interligação entre diferentes fabricantes, a interligação entre módulos novos e antigos, e assim por diante.

A questão da sustentabilidade evolutiva também precisa ser considerada. Por exemplo, 112G já pode suportar LPO, mas se evoluir para 224G, a viabilidade do suporte LPO deve ser considerada.

Problema de baixa latência de rede de computação inteligente

Em termos de baixa latência, se quisermos alcançar garantias globais de computação coordenada, o problema de latência da GPU entre diferentes nós de computação irá inevitavelmente reduzir bastante a eficiência operacional. Então, quais fatores geralmente causam latência?

Primeiro, a rede GPU foi inicialmente baseada no protocolo InfiniBand (IB), que contornava a CPU na transmissão de dados, permitindo a comunicação de dados entre caches GPU entre diferentes nós de computação, reduzindo significativamente os atrasos de comunicação baseados em protocolo.

Atraso na comunicação B2B

Atraso na comunicação B2B

O protocolo tradicional baseado em Ethernet exige que a CPU esteja envolvida em todo o processo de comunicação, portanto o atraso será maior. Uma solução mais comprometida, nomeadamente a solução RDMA, é utilizada em redes de computação inteligentes. O kernel RDMA pode ser encapsulado usando o encapsulamento do protocolo Ethernet, compartilhando assim recursos Ethernet para reduzir a latência.

O segundo é o atraso do link. A comunicação entre GPUs deve passar pela arquitetura leaf-spine e realizar a conversão do sinal óptico para conseguir a interconexão de dados, portanto, vários atrasos ocorrerão inevitavelmente em vários links durante o processo.

Por exemplo, na latência de um modelo de tomada de decisão, o item que pode ser otimizado é o atraso causado pela unidade de recuperação de sinal no transceptor óptico. No atraso do modelo generativo, o atraso é causado principalmente pelo tempo de transmissão de dados, enquanto o atraso causado pelo link físico representa apenas uma proporção muito pequena. Portanto, neste momento, o atraso do sistema será mais sensível à utilização da largura de banda, e diferentes direções de atraso devem ser otimizadas de acordo com diferentes modelos.

Finalmente, Chen Cheng concluiu que, em comparação com as redes tradicionais de comunicação de dados, a largura de banda das redes de computação inteligentes crescerá mais rapidamente e a interconexão de baixo custo depende do suporte de novas tecnologias, como fotônica de silício, LPO/LRO, etc. os modelos têm requisitos diferentes de latência e as direções para otimização serão diferentes.

Deixe um comentário

Voltar ao Topo