NVIDIA HGX B200 y opiniones sobre su solución de refrigeración líquida

NVIDIA HGX B200 es la última plataforma de computación de alto rendimiento de NVIDIA, basada en la arquitectura de GPU Blackwell. Integra varias tecnologías y componentes avanzados diseñados para ofrecer un rendimiento informático y una eficiencia energética excepcionales.

HGX B200 refrigerado por aire

La altura completa del sistema con el módulo refrigerado por aire HGX B200 alcanza los 10U, mientras que el módulo refrigerado por aire HGX B200 ocupa aproximadamente 6U.

Servidor Exxact TensorEX 10U HGX B200

Servidor Exxact TensorEX 10U HGX B200

6 fuentes de alimentación redundantes de 5250 W (3 + 3)

superservidor

SuperServer SYS-A22GA-NBRT(10U)6 fuentes de alimentación redundantes de 5250 W (3 + 3)

En la OCP Global Summit 2024 se mostraron varias fotografías nuevas de la NVIDIA HGX B200. En comparación con la NVIDIA HGX A100/H100/H200, un cambio significativo es la reubicación del chip NVLink Switch en el centro del componente, en lugar de en un lateral. Este cambio minimiza la distancia máxima de enlace entre las GPU y el chip NVLink Switch. El NVLink Switch ahora consta de solo dos chips, en comparación con los cuatro de la generación anterior, y su tamaño ha aumentado notablemente.

Cerca de los conectores de borde, un retemporizador PCIe ha reemplazado al NVSwitch. Estos retemporizadores suelen utilizar disipadores de calor más pequeños, ya que su TDP (potencia de diseño térmico) ronda los 10-15 W.

Placa base HGX B200 sin disipador de calor

Placa base HGX B200 sin disipadores de calor – 1

Placa base HGX B200 sin disipador de calor - 2

Placa base HGX B200 sin disipadores de calor – 2

Retemporizador

Disipador térmico con chip retemporizador de placa base HGX B200

La serigrafía en la superficie superior del conector EXAMAX indica que se trata de una placa base Umbriel GB200 SXM6 con 8 GPU, con el número de pieza: 675-26287-00A0-TS53. Una inspección minuciosa revela que el fabricante del chip Retimer es Astera Labs.

Número de pieza B200

Información sobre el número de pieza de NVIDIA HGX B200

Primer plano del chip retimer NVIDIA HGX B200 de Astera Labs

Primer plano del chip retimer NVIDIA HGX B200 de Astera Labs

El perímetro de la placa base HGX B200 está encerrado en un marco de montaje de aleación de aluminio negro que se utiliza para asegurar los disipadores de calor y fijar los materiales térmicos.

Marco de montaje del disipador térmico de la placa base NVIDIA HGX B200

Marco de montaje del disipador térmico de la placa base NVIDIA HGX B200

A continuación se muestran imágenes del chip NVLink Switch exhibido en la Cumbre Global OCP 2024.

Primer plano del chip conmutador NVIDIA HGX B200 NVLink

Consideraciones para la solución de refrigeración líquida para HGX B200

NVIDIA ha establecido dos valores de TDP (potencia de diseño térmico) para la B200: 1200 W para refrigeración líquida y 1000 W para refrigeración por aire. Además, la B100 ofrece un rango de 700 W similar al anterior H100 SXM, lo que permite a los fabricantes OEM reutilizar el diseño de refrigeración por aire de 700 W. Los límites de TDP más altos se correlacionan con mayores frecuencias de reloj y la cantidad de unidades aritméticas habilitadas, lo que mejora el rendimiento. De hecho, el rendimiento FP4 (Tensor Core) para la B200/1200W es de 20 PFLOPS, para la B200/1000W es de 18 PFLOPS y para la B100/700W es de 14 PFLOPS.

El sistema OAI emplea un circuito de placas frías (es decir, tuberías de agua) de 4x2, en el que el líquido frío fluye inicialmente hacia las placas frías sobre OAM 1-4, donde absorbe calor y luego se calienta levemente antes de pasar por las placas frías sobre OAM 5-8. Esto se parece a la refrigeración por aire, donde el flujo de aire pasa secuencialmente por los disipadores de calor de dos CPU.

Por el contrario, un diseño de circuito de placa fría de 8×1 distribuye el líquido frío de manera uniforme a los 8 OAM, lo que evita temperaturas más altas en la mitad de los OAM, pero potencialmente genera mayores costos debido a tuberías adicionales.

OAM 1.5

En la especificación OAM 1.5, el conjunto de placa fría se ilustra en una disposición de 4 en paralelo y 2 en serie.

4-paralelo-2-serie

Configuración 4-paralelo-2-serie versus 8×1

Placa de enfriamiento nvidia h100
Módulo H3C R5500 G6 H100

Módulo H3C R5500 G6 H100 Refrigeración líquida 4-paralelo-3-serie (2 GPU en paralelo + 1 conmutador en serie)

H100 8+4 (configuración 4 en paralelo 3 en serie)

En función de las configuraciones de placa fría H100 anteriores, las consideraciones para la solución de refrigeración líquida B200 son las siguientes: Las 8 GPU y los 2 conmutadores se dividen en 2 grupos. Cada grupo consta de 4 GPU y 1 conmutador. Ambos grupos utilizan el mismo esquema de refrigeración líquida. Cada grupo tiene 2 puertos de entrada y 2 puertos de salida para las placas frías. Las 2 GPU superiores están en paralelo y conectadas en serie con el conmutador, y las 2 GPU inferiores también están en paralelo y conectadas en serie con el mismo conmutador, lo que da como resultado 4 puertos de entrada/salida en la placa fría del conmutador.

Como alternativa, el colector puede diseñarse con 6 entradas y 6 salidas, donde 4 de las entradas y salidas se utilizan para las 8 GPU (configuración 4 en paralelo y 2 en serie) y las otras 2 entradas y 2 salidas son para los 2 conmutadores, cada uno conectado al colector. Este enfoque requiere una consideración cuidadosa de la ruta de enrutamiento y las limitaciones de espacio para las tuberías. Sin embargo, independientemente de la solución elegida, es necesario realizar una evaluación de simulación detallada y un diseño práctico del sistema.

Deja Tu Comentario

Ir al Inicio