O NVIDIA DGX H100, lançado em 2022, está equipado com 8 placas de rede ConnectX-7 de porta única, com suporte para largura de banda NDR de 400 Gb/s e 2 DPUs Bluefield-3 de porta dupla (200 Gb/s) que podem suportar redes IB/Ethernet . A aparência é mostrada na figura a seguir.
O DGX H100 possui 4 portas QSFP56 para rede de armazenamento e rede de gerenciamento In-Band; Além disso, há uma porta Ethernet 10G para gerenciamento remoto do sistema operacional host e uma porta Ethernet 1G para gerenciamento remoto do sistema.
Pela figura da topologia de rede interna do servidor, existem 4 portas OSFP para conexão de rede computacional (as roxas), e os blocos azuis são placas de rede, que podem atuar como placas de rede e também desempenhar o papel de expansão do Switch PCIe , tornando-se a ponte entre CPU e GPU.
Se o esquema de interconexão de cluster NVIDIA SuperPOD NVLink for adotado, 32 H100s serão interconectados através de switches NVLink externos. As 8 GPUs dentro do servidor estão conectadas a 4 módulos NVSwitch, cada módulo NVSwitch corresponde a 4-5 Módulos ópticos OSFP, um total de 18 OSFPs, e os OSFPs são então conectados a 18 switches NVLink externos. (Atualmente, os H100s no mercado não possuem esses 18 módulos OSFP) Este artigo não discute o método de rede NVLink, mas concentra-se no método de rede IB. De acordo com o documento de design de referência da NVIDIA: No cluster de servidores DGX H100, cada 32 DGX H100s formam um SU e cada 4 DGX H100s são colocados em um rack separado (estima-se que a potência de cada rack seja próxima de 40KW), e vários switches são colocados em dois racks independentes. Portanto, cada SU contém 10 racks (8 para colocação de servidores e 2 para colocação de switches). A rede de computação só precisa usar switches Spine-Leaf de duas camadas (Mellanox QM9700), a topologia da rede é mostrada na figura a seguir.
Uso do switch: No cluster, cada 32 DGX H100s formam um SU (há 8 switches Leaf em cada SU) e há 4 SUs no cluster de 128 servidores H100, portanto, há um total de 32 switches Leaf. Cada DGX H100 no SU precisa ter uma conexão com todos os 8 switches Leaf. Como cada servidor possui apenas 4 portas OSFP para conexão de rede computacional, após conectar módulos ópticos de 800G a cada porta, uma porta OSFP é expandida para duas portas QSFP através da porta de expansão, conseguindo a conexão de cada DGX H100 com 8 switches Leaf. Cada switch Leaf possui 16 portas de uplink que se conectam a 16 switches Spine.
Uso do módulo óptico: módulos ópticos de 400G são necessários para as portas de downlink do switch Leaf, e a demanda é 3284. Módulos ópticos de 800G são usados para as portas de uplink do switch Leaf, e a demanda é de 1684. Módulos ópticos de 800G são usados para as portas de downlink do switch Spine. Portanto, no cluster de 128 servidores H800, a rede de computação utilizada Módulos ópticos 800G Módulos ópticos 1536 e 400G 1024.
Produtos relacionados:
- Compatível com NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850nm 30m em OM3/50m em OM4 MTP/MPO-12 Multimode FEC Optical Transceiver Module $650.00
- Compatível com NVIDIA MMA4Z00-NS-FLT 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $850.00
- Compatível com NVIDIA MMA4Z00-NS 800Gb/s Porta dupla OSFP 2x400G SR8 PAM4 850nm 100m DOM Módulo transceptor óptico MPO-12 MMF duplo $750.00
- Compatível com NVIDIA MMS4X00-NM 800Gb/s Porta dupla OSFP 2x400G PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $1100.00
- Compatível com NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Módulo transceptor óptico MTP/MPO-12 SMF duplo $1200.00
- Compatível com NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $800.00
- Mellanox MMA1T00-HS compatível com 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 Módulo transceptor óptico $200.00
- NVIDIA MFP7E10-N010 compatível com 10 m (33 pés) 8 fibras baixa perda de inserção fêmea para fêmea MPO cabo tronco polaridade B APC para APC LSZH multimodo OM3 50/125 $47.00
- Compatível com NVIDIA MCP7Y00-N003-FLT 3m (10 pés) 800G OSFP de porta dupla a 2x400G OSFP plano superior InfiniBand NDR Breakout DAC $275.00
- NVIDIA MCP7Y70-H002 compatível com 2m (7 pés) 400G Twin-port 2x200G OSFP para 4x100G QSFP56 Passivo Breakout Direct Attach Cabo de cobre $155.00
- NVIDIA MCA4J80-N003-FTF compatível com 3m (10 pés) 800G de porta dupla 2x400G OSFP a 2x400G OSFP InfiniBand NDR cabo de cobre ativo, parte superior plana em uma extremidade e parte superior com aletas na outra $600.00
- NVIDIA MCP7Y10-N002 compatível com 2m (7 pés) 800G InfiniBand NDR OSFP de porta dupla para 2x400G QSFP112 Breakout DAC $200.00