Introducción al superchip NVIDIA GB200 y a los servidores y gabinetes refrigerados por líquido

Introducción

NVIDIA GB200 es un módulo de supercomputación altamente integrado basado en la arquitectura Blackwell de NVIDIA. Este módulo combina dos GPU NVIDIA B200 Tensor Core y una CPU NVIDIA Grace, con el objetivo de ofrecer un rendimiento de IA sin precedentes.

Con la integración de la refrigeración líquida, varios participantes de la industria están trabajando juntos para implementar esta tecnología. Creemos que, a medida que el contenido generado por IA (AIGC) impulsa el aumento del consumo de energía de los chips informáticos de IA, los servidores necesitan urgentemente métodos de refrigeración más eficientes. El líder mundial en chips de IA, NVIDIA (con su nuevo GB200 con refrigeración líquida) y el fabricante de servidores de IA Supermicro (que planea expandir los racks refrigerados por líquido en el segundo trimestre del año fiscal 2) están respaldando la tecnología de refrigeración líquida. Además, la colaboración de la industria nacional está avanzando, como lo demuestra la publicación de un informe técnico sobre la tecnología de refrigeración líquida por parte de los tres principales operadores de telecomunicaciones en junio de 24, que prevé una aplicación a escala de proyecto de más del 2023% de la refrigeración líquida para 50 y más allá. En resumen, la refrigeración líquida está siendo promovida por los fabricantes de chips upstream, los fabricantes de servidores, los proveedores de IDC downstream y los operadores de telecomunicaciones, lo que se espera que impulse la demanda de equipos de refrigeración líquida y la construcción de nuevos centros de datos refrigerados por líquido. Según el pronóstico de DellOro, el tamaño del mercado mundial de refrigeración líquida se acercará a los 2025 mil millones de dólares para 2.

Introducción básica a GH200 y GB200

Comparar los parámetros de GH200 y GB200 puede proporcionar una comprensión más clara e intuitiva de GB200.

La GH200, lanzada por NVIDIA en 2023, combina una GPU H200 con una CPU Grace, donde una CPU Grace corresponde a una GPU H200. La GPU H200 puede tener hasta 96 GB o 144 GB de memoria. La CPU Grace y la GPU Hopper están interconectadas a través de NVLink-C2C con un ancho de banda de 900 GB/s, y el consumo de energía correspondiente es de 1000 W.

Diagrama lógico de un solo chip NVIDIA GH200

El 19 de marzo de 2024, NVIDIA presentó su chip de IA más potente, el GB200, en la GTC anual. En comparación con el H100, la potencia de cálculo del GB200 es seis veces mayor y, para tareas multimodales específicas, su potencia de cálculo puede alcanzar 30 veces la del H100, al tiempo que reduce el consumo de energía en 25 veces. A diferencia del GH200, el GB200 consta de una CPU Grace y dos GPU Blackwell, lo que duplica la potencia de cálculo y la memoria de la GPU. La CPU y la GPU siguen estando interconectadas a través de NVLink-C2C con un ancho de banda de 900 GB/s, y el consumo de energía correspondiente es de 2700 W.

GB200
Superchip NVIDIA GB200
GB200 utiliza el chip B200 completo

Dado su alto consumo de energía de 2700 W, el GB200 requiere una refrigeración eficiente. El GB200 NVL72 es un sistema de expansión a escala de rack con refrigeración líquida de múltiples nodos adecuado para cargas de trabajo con un uso intensivo de recursos informáticos.

Servidores y gabinetes refrigerados por líquido de varios fabricantes

El GB200 viene principalmente en dos configuraciones de gabinete:

GB200 NVL72 (disposición 10+9+8)

GB200 NVL36x2 (disposición 5+9+4)

Gabinete GB200 NVL72

El gabinete GB200 NVL72 tiene un consumo total de energía de aproximadamente 120 kW. Mientras que los gabinetes de CPU estándar admiten hasta 12 kW por rack, los gabinetes refrigerados por aire H100 de mayor densidad suelen admitir alrededor de 40 kW por rack. Por lo general, para gabinetes individuales que superan los 30 kW, se recomienda la refrigeración líquida, por lo que el gabinete GB200 NVL72 emplea una solución de refrigeración líquida.

El gabinete GB200 NVL72 consta de 18 nodos de cómputo de 1U y 9 NVSwitches. Cada nodo de cómputo tiene una altura de 1U y contiene 2 placas Bianca. Cada placa Bianca incluye 1 CPU Grace y 2 GPU Blackwell. La bandeja NVSwitch tiene dos ASIC NVSwitch28.8 de 5 Gb/s.

Actualmente, esta configuración de gabinete rara vez se implementa porque la mayoría de las infraestructuras de centros de datos, incluso con enfriamiento líquido directo (DLC), no pueden soportar una densidad de rack tan alta.

Gabinete GB200 NVL72

El gabinete GB200 NVL36x2 consta de dos gabinetes interconectados. Se espera que esta configuración sea la más utilizada para los racks GB200. Cada rack contiene 18 CPU Grace y 36 GPU Blackwell. Los dos gabinetes mantienen una interconexión completa sin bloqueos, lo que permite la comunicación entre las 72 GPU en el NVL72. Cada nodo de cómputo tiene una altura de 2U y contiene 2 placas Bianca. Cada bandeja NVSwitch tiene dos chips ASIC NVSwitch28.8 de 5 Gb/s, y cada chip tiene 14.4 Gb/s hacia la placa posterior y 14.4 Gb/s hacia la placa frontal. Cada bandeja NVSwitch tiene 18 jaulas OSFP de puerto dual de 1.6 T, conectadas horizontalmente a un par de racks NVL36.

El gabinete GB200 NVL36x2

Durante la feria Taipei International Computer Show 2024, se presentó públicamente el GB200 NVL72. La mayoría de los fabricantes mostraron configuraciones de gabinete único, como Wiwynn, ASRock, GIGABYTE, Supermicro e Inventec, con servidores de nodo de cómputo 1U. GIGABYTE, Inventec y Pegatron también mostraron servidores de nodo de cómputo 2U, y se refirieron a esta configuración como GB200 NVL36.

A continuación, presentaremos los servidores y gabinetes refrigerados por líquido de varios fabricantes.

NVIDIA

En GTC 2024, NVIDIA presentó un rack configurado con el DGX GB200 NVL72, totalmente interconectado a través de NVLink. El gabinete completo pesa aproximadamente 1.36 toneladas (3,000 libras). Este sistema es una versión mejorada del sistema de rack Grace-Hopper Superchip que NVIDIA presentó en noviembre de 2023, pero con más del doble de GPU.

Sistema insignia

El sistema estrella es un solo rack con un consumo de energía de 120 kW. La mayoría de los centros de datos pueden admitir hasta 60 kW por rack. Para aquellos que no pueden implementar un solo rack de 120 kW o un SuperPOD de 8 racks que se acerque a 1 MW, se puede utilizar la configuración de gabinete NVL36x2.

NVIDIA DGX GB200 NVL72 frontal

En la parte superior del gabinete hay dos conmutadores Spectrum de 52 puertos (48 puertos Gigabit RJ45 + 4 puertos de agregación QSFP28 de 100 Gbps). Estos conmutadores administran y transmiten diversos datos de los nodos de cómputo, los conmutadores NVLink y los bastidores de alimentación que conforman el sistema.

Debajo de estos interruptores se encuentran tres de los seis bastidores de alimentación del gabinete, y los otros tres se encuentran en la parte inferior. Estos bastidores de alimentación suministran electricidad al gabinete de 120 kW. Se estima que seis fuentes de alimentación de 415 V y 60 A son suficientes para cumplir con este requisito, con cierta redundancia incorporada en el diseño. La corriente de funcionamiento de estas fuentes de alimentación puede superar los 60 A. Cada dispositivo se alimenta a través de una barra colectora en la parte posterior del gabinete.

conmutador nvidia

Debajo de los tres bastidores de alimentación superiores hay diez nodos de cómputo de 1U. El panel frontal de cada nodo tiene cuatro NIC InfiniBand (cuatro compartimentos QSFP-DD a la izquierda y al centro del panel frontal), que forman la red de cómputo. El sistema también está equipado con DPU BlueField-3, que se dice que se encargan de la comunicación con la red de almacenamiento. Además de varios puertos de gestión, hay cuatro bandejas de unidades E1.S.

Cada nodo de cómputo contiene dos CPU Grace Arm

Cada nodo de cómputo contiene dos CPU Grace Arm, cada una de las cuales está conectada a dos GPU Blackwell. El consumo de energía de cada nodo varía entre 5.4 kW y 5.7 kW, y la mayor parte del calor se disipa mediante refrigeración líquida directa al chip (DTC).

Conmutadores NV

Prototipo GB200
Conmutadores NV
refrigeración líquida

Debajo de los diez nodos de cómputo hay nueve conmutadores NVSwitch. Los componentes dorados del panel son manijas para insertar y quitar los conmutadores.

Los componentes dorados del panel son manijas para insertar y quitar los interruptores.

Cada conmutador NVLink contiene dos chips de conmutador NVLink, que también utilizan refrigeración líquida.

Dentro del Switch

En la parte inferior del gabinete, debajo de los nueve NVSwitches, hay ocho nodos de cómputo 1U.

En la parte inferior del gabinete, debajo de los nueve NVSwitches, hay ocho nodos de cómputo 1U.

En la parte posterior del gabinete, se utiliza un diseño de barra colectora de conexión ciega, junto con conectores para proporcionar líquido refrigerante y conexiones NVLink a cada dispositivo. Cada componente requiere algo de espacio para moverse a fin de garantizar la confiabilidad de las conexiones ciegas.

Un diseño de potencia de barra colectora de acoplamiento ciego

Según Jensen Huang, el líquido refrigerante ingresa al rack a una velocidad de 2L/s, con una temperatura de entrada de 25°C y una temperatura de salida superior a 20°C.

El líquido refrigerante entra en el bastidor.

NVIDIA afirma que el uso de NVLink de cobre (fibra óptica) en la parte posterior del gabinete puede ahorrar aproximadamente 20 kW de energía por gabinete. Se estima que la longitud total de todos los cables de cobre supera las 2 millas (3.2 kilómetros). Esto explica por qué los conmutadores NVLink están ubicados en el medio del gabinete, ya que esto minimiza la longitud del cable.

NVIDIA DGX GB200 NVL72 NVLink Spine sin óptica

Supermicro

supermicro 1
supermicro 2
supermicro 3
supermicro 4

Sistemas NVIDIA MGX™ de Supermicro

Sistemas Superchip NVIDIA GH1 Grace Hopper™ de 200U

supermicro 5

Foxconn

El 18 de marzo de 2024, en la conferencia GTC de NVIDIA, Ingrasys, subsidiaria de Foxconn, presentó el servidor refrigerado por líquido NVL72, que utiliza el chip GB200 de NVIDIA. Este servidor integra 72 GPU NVIDIA Blackwell y 36 CPU NVIDIA Grace.

Jensen Huang y Foxconn tienen una buena relación, con múltiples colaboraciones en servidores y otras áreas. El último superservidor de IA de Foxconn, el DGX GB200, comenzará su producción en masa en la segunda mitad del año. Los productos de la serie GB200 se enviarán en formato de rack, con un volumen de pedidos estimado de hasta 50,000 gabinetes. Foxconn posee actualmente tres nuevos productos importantes en la serie de gabinetes del sistema DGX GB200: DGX NVL72, NVL32 y HGX B200. Son los grandes ganadores de esta transición de generación de plataformas.

Bastidor de IA

La solución de rack refrigerado por líquido de nueva generación para IA, NVIDIA GB200 NVL72, combina 36 superchips NVIDIA GB200 Grace Blackwell, que incluyen 72 GPU basadas en NVIDIA Blackwell y 36 CPU NVIDIA Grace. Están interconectados a través de la quinta generación de NVIDIA NVLink para formar una única GPU grande.

NVIDIA GB200 Grace Blackwell
fábrica de hardware

Tecnología de nube cuántica (QCT)

Tecnología de nube cuántica (QCT)
estante para bebidas

En el evento, QCT presentó su modelo 1U, QuantaGrid D75B-1U. Bajo el marco del sistema NVIDIA GB200 NVL72, este modelo puede alojar 72 dispositivos en un solo gabinete. El D75B-1U está equipado con dos Superchips Grace Blackwell GB200. QCT destacó que la CPU puede acceder a 480 GB de memoria LPDDR5X, y la GPU está equipada con 144 GB de memoria de alto ancho de banda HBM3e, ambas con accesorios de refrigeración líquida de placa fría. En términos de almacenamiento, este servidor 1U puede albergar ocho SSD PCIe E15.S de 1 mm de espesor y un SSD PCIe M.2 2280. Para la expansión de dispositivos PCIe, el D75B-1U puede alojar dos tarjetas de interfaz de ancho doble, altura completa y longitud completa y dos tarjetas de interfaz de media altura y media longitud, todas compatibles con PCIe 5.0 x16.

Sistema de gestión de energía QuantaGrid D75B-1U
Inteligencia artificial QuantaGrid D75B-1U

wiwynn

Como socio importante de NVIDIA, Wiwynn es una de las primeras empresas en cumplir con el estándar NVIDIA GB200 NVL72. En GTC 2024, Wiwynn exhibió sus últimas soluciones de computación de IA. El superchip NVIDIA GB200 Grace Blackwell, lanzado recientemente, es compatible con las últimas plataformas NVIDIA Quantum-X800 InfiniBand y NVIDIA Spectrum-X800 Ethernet. Esto incluye un nuevo rack de servidor de IA refrigerado por líquido a nivel de rack impulsado por el sistema NVIDIA GB200 NVL72. Wiwynn aprovecha sus puntos fuertes en transmisión de datos de alta velocidad, eficiencia energética, integración de sistemas y tecnologías de refrigeración avanzadas. Su objetivo es satisfacer las demandas emergentes de rendimiento, escalabilidad y diversidad en el ecosistema de los centros de datos.

Wiwynn GB200 NVL72
la solución

Wiwynn también lanzó el UMS100 (Sistema de gestión de refrigeración líquida universal), un sistema avanzado de gestión de refrigeración líquida a nivel de rack diseñado para satisfacer la creciente demanda de alta potencia informática y mecanismos de refrigeración eficientes en la era emergente de la IA generativa (GenAI). Este innovador sistema ofrece una gama de funciones, que incluyen monitoreo en tiempo real, optimización de la energía de refrigeración, detección rápida de fugas y contención. También está diseñado para integrarse sin problemas con los sistemas de gestión de centros de datos existentes a través de la interfaz Redfish. Admite protocolos estándar de la industria y es compatible con varias unidades de distribución de refrigeración (CDU) y gabinetes laterales.

ASUS

En Computex Taipei 2024, ASUS presentó varios servidores de IA. Entre ellos, se encuentran los nuevos servidores NVIDIA Blackwell, concretamente los servidores B100, B200 y GB200, así como los servidores AMD MI300X. Además, hay servidores Intel Xeon 6 y servidores AMD EPYC Turin con hasta 500 W de TDP de CPU.

Lo más destacado es el ASUS ESC AI POD, que incorpora la versión NVIDIA GB200 NVL72.

Módulo de inteligencia artificial ASUS ESC
ASUS ESC AI POD 2
ASUS
ASUS NVIDIA GB200 NVL72

ASUS también mostró el aspecto de uno de los nodos. En el chasis 1U, podemos ver la fuente de alimentación por bus y los nodos duales GB200 refrigerados por líquido. Estos nodos están equipados con dos Superchips Grace Blackwell GB200, ambos cubiertos con placas frías. En el medio del chasis, hay una placa de distribución de energía (PDB) diseñada para convertir 48 voltios de CC a 12 voltios de CC para alimentar las GPU Blackwell. Además, esta ranura computacional incluye un módulo de almacenamiento para SSD de factor de forma E1.S y dos tarjetas de procesador de datos BlueField-3 de la serie B3240 en factor de forma de media longitud y altura completa de ancho doble.

Tablero de distribución de energía
COLECTOR INTERIOR
POD de IA ESC

Para los usuarios que buscan computación Arm de bajo costo y GPU NVIDIA, existe la plataforma dual NVIDIA Grace Hopper GH200, conocida como ASUS ESC NM2-E1. Combina dos unidades de CPU y GPU Grace Hopper en un solo sistema.

ESC NM2 E1

Inventec

En el evento, Inventec presentó el NVL200 GB72 a nivel de gabinete junto con los servidores Artemis 1U y 2U. Estos servidores están equipados con dos Superchips Grace Blackwell GB200, tarjetas de red InfiniBand ConnectX-7 de 400 Gb/s y procesadores de datos BlueField-3 de 400 Gb/s.

Inventec_1
Inventec_6
  • 120kW por gabinete
  • Barra colectora de potencia: 1400 A
  • 8 estantes de potencia de 33 kW (1+1 de respaldo)
  • Tapón ciego de refrigeración líquida + tapón ciego de barra colectora + tapón ciego de comunicación
  • Unidad de refrigeración del gabinete trasero conocida como “Side Car”

El “Side Car” es un gabinete de refrigeración líquida diseñado para acompañar al gabinete del servidor, similar a un sidecar en una motocicleta, proporcionando una solución de refrigeración eficaz.

Deja un comentario

Ir al Inicio