Análisis en profundidad: Cómo elegir potencia de procesamiento, refrigeración líquida, red y alimentación para NVIDIA GB200

Origen del nombre

G – CPU de gracia

B – GPU Blackwell

200 – Generación

NVL – Tecnología de interconexión NVlink

72 – 72 GPU

anunciando gb200 nvl72

Configuración de potencia de cómputo

Cada NVL72 tiene 18 bandejas de cómputo, que son las unidades básicas de la configuración de potencia de cómputo del NVL72. Cada bandeja sirve como un nodo de cómputo. El NVL200 GB72 define el superconjunto de chips de la placa Bianca, donde cada conjunto de chips comprende una CPU Grace (desarrollada por NV basada en la arquitectura ARM) y dos chips GPU Blackwell. Cada bandeja de cómputo consta de dos superconjuntos de chips, es decir, 2 CPU + 4 GPU. Las 72 bandejas de cómputo del NVL18 suman un total de 18 * 4 = 72 GPU.

Cada bandeja de cómputo, en un formato de 1U, se conecta directamente al chasis. Es la unidad mínima para la implementación y el mantenimiento diarios, y cada bandeja de cómputo consume hasta 5400 W de energía.

Todo el sistema NVL72 cuenta con 13.8 TB de memoria de vídeo, y cada chip B200 contiene 192 GB de memoria de vídeo, un aumento de 112 GB con respecto a los 100 GB del H80. Además, el ancho de banda de memoria de una sola GPU se ha mejorado de 3.35 TB/s en el H100 a 8 TB/s. El sistema también incluye 17 TB de memoria DDR5X, y cada chip Bianca está equipado con 480 GB de memoria.

Configuración de potencia de cómputo

Configuración de refrigeración

Durante la fase H100, cada GPU consumía 700 W. Para cumplir con los requisitos de refrigeración por aire y crear un mejor entorno aerodinámico, todo el sistema se instaló en un espacio de 6 a 8 U con 8 H100. En la fase B200, cada chip consume 1200 W, lo que requiere más espacio de refrigeración, lo que amplía el sistema a un tamaño de 10 U (8 * B200).

En el caso de la placa GB200 Bianca, con un consumo de energía de 2700 W, la velocidad del aire no es suficiente para proporcionar una refrigeración eficaz en un rack de 19 pulgadas, por lo que se necesita una solución de refrigeración líquida. Esto permite controlar el volumen del sistema dentro del rango de 1 a 2 U, lo que mejora significativamente la utilización del espacio y la eficiencia de refrigeración.

  1. A nivel de servidor: la refrigeración líquida puede satisfacer las necesidades de refrigeración de las CPU y GPU en la placa Bianca a través de placas frías. Sin embargo, la parte frontal de cada bandeja de cómputo y bandeja de NVswitch aún contiene muchos componentes personalizados, como tarjetas de red, PDU, tarjetas de administración y discos duros, que aún requieren refrigeración por aire. Por lo general, la relación líquido-aire para una bandeja de cómputo es de aproximadamente 8.5:1.5. En el futuro, si se escala en función de las tarjetas de red CX, es posible que se diseñen placas frías para las NIC.
  2. A nivel de rack: Actualmente se encuentran disponibles varias soluciones de refrigeración líquida:
  3. Soluciones de modernización para salas antiguas refrigeradas por aire: existen dos opciones, RDHx y Sidecar, la primera proporciona una refrigeración de 30 a 40 KW y la segunda, de 70 a 140 KW. Estas soluciones permiten añadir un sistema de refrigeración líquida a cada rack sin modificar las unidades de HVAC refrigeradas por aire existentes, utilizando un refrigerante para transferir calor a un radiador para el intercambio de aire (conservando el ambiente de refrigeración por aire interior). Se requieren modificaciones mínimas, lo que evita renovaciones extensas de tuberías.
en rack
  • Nuevos centros de datos de alta densidad: para los nuevos centros de datos de alta densidad como el NV72, las CDU en rack y en fila son las principales opciones. Las CDU en rack requieren más de 4U de espacio dentro del rack y suelen ofrecer una eficiencia de refrigeración de alrededor de 80 KW sin capacidades de redundancia. Por el contrario, las CDU en fila se instalan fuera de los racks individuales y proporcionan refrigeración para varios racks o filas, configurados con dos sistemas CDU, que ofrecen una refrigeración y redundancia de entre 800 KW y 2000 KW. El marketing oficial del clúster NVL576 utiliza la solución en fila.
CDU en rack L2L
CDU en fila

Configuración de la red

Red NVLink

El NVL72 presenta una arquitectura NVLink completamente interconectada, eliminando la necesidad de redes RDMA (IB&RoCE) en el modo NVL72.

El sistema NVL72 está equipado con 9 bandejas NVSwitch, cada una de las cuales contiene 2 chips de conmutación NVLink. Cada chip admite una velocidad de 4 * 1.8 TB/s, lo que suma una capacidad total de 7.2 TB/s, lo que se traduce en 57.6 Tbps. Esta capacidad es ligeramente superior a los 5 Tbps del popular chip TH51.2. Cada bandeja NVSwitch proporciona una capacidad NVLink de 2 * 4 * 1.8 TB/s = 14.4 TB/s.

Bandeja interior del NVswitch
Bandeja NVswitch interior 2
Bandeja frontal del NVswitch

El GB200 utiliza NVLink 5.0, con cada chip B200 interconectado a chips de conmutación NVLink a través de 18 conexiones NVLink 5.0. Por lo tanto, una unidad NVL72 tiene 72 * 18 = 1296 puertos NVLink 5.0, y cada puerto ofrece 100 GB/s bidireccionales, que consisten en 4 pares de líneas de señal diferencial. Cada par está conectado por un cable de cobre, lo que da como resultado 1296 * 4 = 5184 conexiones físicas.

enlace nv5.0

Como se muestra, las 9 bandejas NVSwitch en un gabinete NVL200 GB72 se utilizan para conectar 72 chips B200. Cada chip B200 está vinculado a 18 chips NVSwitch a través de una única conexión NVLink 5.0 bidireccional de 100 GB. Cada chip NVSwitch admite un ancho de banda de 7.2 GB, que corresponde a 72 conexiones NVLink 5.0, lo que permite la implementación de 72 GPU B200. No hay interfaces NVLink adicionales para ampliar a clústeres más grandes.

Las 9 bandejas NVSwitch en un gabinete NVL200 GB72 se utilizan para conectar 72 chips B200

La red NVLink dentro del NVL200 GB72 forma un estado completamente interconectado, logrando una interconectividad total para 72 chips B200 a través de un único salto NVSwitch. Cada chip de conmutación tiene 4 puertos NVLink, cada uno de los cuales está emparejado con 72 cables de cobre, lo que reduce significativamente el consumo de energía y el costo de la comunicación óptica, y permite ahorrar hasta 20 KW por sistema. La estructura de comunicación interna del NVL72 se ilustra en el siguiente diagrama:

arquitectura gb200 nvl72

Red sin NVLink (RDMA + red TCP de alta velocidad)

Cada bandeja de cómputo incluye 4 ranuras OSFP y 2 ranuras QSFP. La disposición de los puertos de red en el panel frontal de la bandeja de cómputo se muestra a continuación:

La disposición del puerto de red en el panel frontal de la bandeja de cómputo
  1. Las 2 ranuras QSFP, compatibles con Bluefield-3 DPU, proporcionan puertos 400G/800G para interconectividad de red de almacenamiento/TCP de alto rendimiento, formando la red front-end propuesta por NV.

b. Las 4 ranuras OSFP, con puertos CX7/CX8 800G/1.6TB, admiten la expansión externa del GB200 mediante comunicación de red RDMA, constituyendo la red back-end propuesta por NV.

Debido a la arquitectura de diseño, los costos de transmisión y las capacidades del chip, NV actualmente ofrece una solución de red NVLink pura para un máximo de 576 GPU, equivalente a 8 unidades NVL200 de 72 GB. Para una mayor expansión de los clústeres de inferencia/entrenamiento de IA, se requieren redes RDMA. NVLink 5.0 logra un ancho de banda de 100 GB/s por GPU, con 18 conexiones por GPU, lo que totaliza un ancho de banda de 1.8 TB/s. La velocidad de puerto único más rápida actual de RDMA es de 200 GB/s (1.6 Tbps), que no coincide con la velocidad de NVLink.

Configuración y energía

Consumo de energía nominal general: el sistema tiene un consumo de energía nominal general de 120 KW. Está configurado como 2N con 4+4 (o 4+2) estantes de alimentación, cada uno con capacidad para 33 KW. Cada estante de alimentación puede alojar seis unidades de fuente de alimentación de 5.5 KW, lo que proporciona redundancia 5+1.

El sistema tiene un consumo energético nominal total de 120KW.

Especificaciones de la plataforma de alimentación: Las plataformas de alimentación utilizan la plataforma de alimentación ORv3 HPR de OCP, que cuenta con una eficiencia energética superior al 97.5 %, lo que reduce las pérdidas de energía durante el proceso de conversión de CA a CC. Además, utiliza una salida de CC de bajo voltaje de 48 V/50 V para cada ranura, lo que ofrece menores pérdidas de transmisión de energía en comparación con la salida tradicional de 12 V.

ORv3 HPR

Estándar de alimentación de entrada del rack: la alimentación de entrada del rack cumple con el estándar ORv3 HPR de OCP, con una entrada de CA de 415 V. Cada ranura está conectada directamente a la barra colectora del rack a través de conexiones fijas.

OCP
Cada ranura está conectada directamente a la barra colectora del rack a través de conexiones fijas.

Configuración de entrada de CA: en el lado de entrada de CA, el sistema utiliza conectores de 3 pines definidos por ORv7. El diagrama a continuación muestra dos estándares de conector diferentes (a la izquierda para América del Norte, a la derecha para Europa). Según la compatibilidad de 33 KW del estante de alimentación, es probable que cada entrada cumpla con un estándar de disyuntor de 125 A.

Configuración de entrada de CA

Conexiones de entrada de CA ascendentes: el extremo ascendente de la entrada de CA utiliza conectores industriales estándar, que cumplen con las normas IEC 60309-2 y tienen clasificación IP67. Estos enchufes industriales móviles admiten un disyuntor de 125 A. Según el voltaje de fase, puede elegir entre configuraciones de 3 A de 125 pines o de 5 A de 125 pines.

Deja un comentario

Ir al Inicio