NVIDIA HGX B200 es la última plataforma de computación de alto rendimiento de NVIDIA, basada en la arquitectura de GPU Blackwell. Integra varias tecnologías y componentes avanzados diseñados para ofrecer un rendimiento informático y una eficiencia energética excepcionales.

La altura completa del sistema con el módulo refrigerado por aire HGX B200 alcanza los 10U, mientras que el módulo refrigerado por aire HGX B200 ocupa aproximadamente 6U.

Servidor Exxact TensorEX 10U HGX B200
6 fuentes de alimentación redundantes de 5250 W (3 + 3)

SuperServer SYS-A22GA-NBRT(10U)6 fuentes de alimentación redundantes de 5250 W (3 + 3)
En la OCP Global Summit 2024 se mostraron varias fotografías nuevas de la NVIDIA HGX B200. En comparación con la NVIDIA HGX A100/H100/H200, un cambio significativo es la reubicación del chip NVLink Switch en el centro del componente, en lugar de en un lateral. Este cambio minimiza la distancia máxima de enlace entre las GPU y el chip NVLink Switch. El NVLink Switch ahora consta de solo dos chips, en comparación con los cuatro de la generación anterior, y su tamaño ha aumentado notablemente.
Cerca de los conectores de borde, un retemporizador PCIe ha reemplazado al NVSwitch. Estos retemporizadores suelen utilizar disipadores de calor más pequeños, ya que su TDP (potencia de diseño térmico) ronda los 10-15 W.

Placa base HGX B200 sin disipadores de calor – 1

Placa base HGX B200 sin disipadores de calor – 2

Disipador térmico con chip retemporizador de placa base HGX B200
La serigrafía en la superficie superior del conector EXAMAX indica que se trata de una placa base Umbriel GB200 SXM6 con 8 GPU, con el número de pieza: 675-26287-00A0-TS53. Una inspección minuciosa revela que el fabricante del chip Retimer es Astera Labs.

Información sobre el número de pieza de NVIDIA HGX B200

Primer plano del chip retimer NVIDIA HGX B200 de Astera Labs
El perímetro de la placa base HGX B200 está encerrado en un marco de montaje de aleación de aluminio negro que se utiliza para asegurar los disipadores de calor y fijar los materiales térmicos.

Marco de montaje del disipador térmico de la placa base NVIDIA HGX B200
A continuación se muestran imágenes del chip NVLink Switch exhibido en la Cumbre Global OCP 2024.

Consideraciones para la solución de refrigeración líquida para HGX B200
NVIDIA ha establecido dos valores de TDP (potencia de diseño térmico) para la B200: 1200 W para refrigeración líquida y 1000 W para refrigeración por aire. Además, la B100 ofrece un rango de 700 W similar al anterior H100 SXM, lo que permite a los fabricantes OEM reutilizar el diseño de refrigeración por aire de 700 W. Los límites de TDP más altos se correlacionan con mayores frecuencias de reloj y la cantidad de unidades aritméticas habilitadas, lo que mejora el rendimiento. De hecho, el rendimiento FP4 (Tensor Core) para la B200/1200W es de 20 PFLOPS, para la B200/1000W es de 18 PFLOPS y para la B100/700W es de 14 PFLOPS.
El sistema OAI emplea un circuito de placas frías (es decir, tuberías de agua) de 4x2, en el que el líquido frío fluye inicialmente hacia las placas frías sobre OAM 1-4, donde absorbe calor y luego se calienta levemente antes de pasar por las placas frías sobre OAM 5-8. Esto se parece a la refrigeración por aire, donde el flujo de aire pasa secuencialmente por los disipadores de calor de dos CPU.
Por el contrario, un diseño de circuito de placa fría de 8×1 distribuye el líquido frío de manera uniforme a los 8 OAM, lo que evita temperaturas más altas en la mitad de los OAM, pero potencialmente genera mayores costos debido a tuberías adicionales.

En la especificación OAM 1.5, el conjunto de placa fría se ilustra en una disposición de 4 en paralelo y 2 en serie.

Configuración 4-paralelo-2-serie versus 8×1


Módulo H3C R5500 G6 H100 Refrigeración líquida 4-paralelo-3-serie (2 GPU en paralelo + 1 conmutador en serie)

En función de las configuraciones de placa fría H100 anteriores, las consideraciones para la solución de refrigeración líquida B200 son las siguientes: Las 8 GPU y los 2 conmutadores se dividen en 2 grupos. Cada grupo consta de 4 GPU y 1 conmutador. Ambos grupos utilizan el mismo esquema de refrigeración líquida. Cada grupo tiene 2 puertos de entrada y 2 puertos de salida para las placas frías. Las 2 GPU superiores están en paralelo y conectadas en serie con el conmutador, y las 2 GPU inferiores también están en paralelo y conectadas en serie con el mismo conmutador, lo que da como resultado 4 puertos de entrada/salida en la placa fría del conmutador.
Como alternativa, el colector puede diseñarse con 6 entradas y 6 salidas, donde 4 de las entradas y salidas se utilizan para las 8 GPU (configuración 4 en paralelo y 2 en serie) y las otras 2 entradas y 2 salidas son para los 2 conmutadores, cada uno conectado al colector. Este enfoque requiere una consideración cuidadosa de la ruta de enrutamiento y las limitaciones de espacio para las tuberías. Sin embargo, independientemente de la solución elegida, es necesario realizar una evaluación de simulación detallada y un diseño práctico del sistema.
Productos relacionados:
-
OSFP-800G-FR4 800G OSFP FR4 (200G por línea) PAM4 CWDM Duplex LC 2km SMF Módulo transceptor óptico $3500.00
-
OSFP-800G-2FR2L 800G OSFP 2FR2 (200G por línea) PAM4 1291/1311nm 2km DOM Duplex LC SMF Módulo transceptor óptico $3000.00
-
OSFP-800G-2FR2 800G OSFP 2FR2 (200G por línea) PAM4 1291/1311nm 2km DOM Dual CS SMF Módulo transceptor óptico $3000.00
-
OSFP-800G-DR4 800G OSFP DR4 (200G por línea) PAM4 1311nm MPO-12 500m SMF DDM Módulo transceptor óptico $3000.00
-
NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Módulo transceptor óptico $1199.00
-
NVIDIA MMA4Z00-NS-FLT Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $650.00
-
NVIDIA MMS4X00-NM Compatible 800 Gb/s Puerto doble OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 Módulo transceptor óptico SMF $900.00
-
NVIDIA MMA4Z00-NS Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $650.00
-
NVIDIA MMS1Z00-NS400 Compatible 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12 con módulo transceptor óptico FEC $700.00
-
NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $700.00
-
Módulo transceptor óptico MTP/MPO-1 OM00 FEC compatible con NVIDIA MMA400Z400-NS112, 4 G, QSFP4, VR850, PAM50, 12 nm, 4 m $550.00
-
NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m en OM3/50m en OM4 MTP/MPO-12 Módulo transceptor óptico FEC multimodo $550.00
-
Módulo transceptor óptico OSFP 4x50G FR2 PAM400 4nm 4km DOM Dual Duplex LC SMF compatible con NVIDIA MMS1310X2-NM $1200.00
-
OSFP-XD-1.6T-4FR2 1.6T OSFP-XD 4xFR2 PAM4 1291/1311nm los 2km SN SMF Módulo transceptor óptico $15000.00
-
Módulo transceptor óptico LC SMF dúplex dual de 1.6 km OSFP-XD-2T-4FR1.6 2T OSFP-XD 4xFR4 PAM2 4x CWDM2 $20000.00
-
OSFP-XD-1.6T-DR8 1.6T OSFP-XD DR8 PAM4 1311nm 2km MPO-16 Módulo transceptor óptico SMF $12000.00