Análisis del último hardware de NVIDIA: B100/B200/GH200/NVL72/SuperPod

Resumen

Anteriormente hemos presentado brevemente la última GPU Blackwell de NVIDIA, pero parte del contenido puede malinterpretarse fácilmente, como la ambigüedad o los conceptos vagos en la presentación oficial de NVIDIA. Además, hemos visto algunos malentendidos sobre las capacidades de la nueva generación de GPU, como la creencia de que tienen una mejora de rendimiento decenas de veces mayor. Por lo tanto, hemos decidido resumir exhaustivamente los diversos datos para permitir que todos puedan hacer una comparación más completa y justa.

En este artículo, hemos recopilado información exhaustiva sobre el hardware de las GPU Blackwell de NVIDIA, incluidas B100, B200, GH200 y NVL72, así como la SuperPod-576 y las tarjetas de red ConnectX-800G correspondientes, los conmutadores IB Quantum-X800 y los conmutadores Ethernet Spectrum-X800, y los hemos comparado con la serie anterior. Cabe señalar que parte del contenido del artículo son datos que hemos inferido en función de diversa información, como las partes en rojo en algunas de las tablas, y los datos finales estarán sujetos al libro blanco oficial (que aún no se ha visto). Además, esto no incluye contenido relacionado con el ecosistema de software.

Evolución

NVIDIA lanzó las últimas GPU de arquitectura Blackwell el 19 de marzo de 2024, siendo las principales las GPU B200, B100 y GB200, así como las correspondientes GB200-NVL72 y GB200-SuperPod. La relación entre las distintas GPU se muestra en la siguiente figura.

Evolución

GPU única

La siguiente tabla muestra las GPU más potentes de las series Ampere, Hopper y Blackwell. Se puede ver que la memoria, la potencia informática y NVLink se están fortaleciendo gradualmente. (Nota: NVIDIA también ha lanzado una solución especial en la que se conectan dos versiones PCIe H100 a través de NVBridge, llamada H100 NVL, pero como siguen siendo dos GPU, los detalles no se discutirán aquí).

A100 -> H100: la potencia informática densa del FP16 aumentó más de 3 veces, mientras que el consumo de energía solo aumentó de 400W a 700W.

H200 -> B200: la potencia informática densa del FP16 aumentó más de 2 veces, mientras que el consumo de energía solo aumentó de 700 W a 1000 W.

La potencia informática densa del B200 FP16 es aproximadamente 7 veces mayor que la del A100, mientras que el consumo de energía es sólo 2.5 veces.

Las GPU de Blackwell admiten la precisión del FP4, con una potencia informática que duplica la del FP8. Algunos de los datos del informe de NVIDIA comparan la potencia informática del FP4 con la potencia informática del FP8 de la arquitectura Hopper, por lo que la relación de aceleración será más exagerada.

Se debe notar que:

GB200 utiliza el chip B200 completo, mientras que B100 y B200 son las versiones simplificadas correspondientes.

GB200 utiliza el chip B200 completo

Servidores HGX

HGX es un servidor de alto rendimiento de NVIDIA, que generalmente contiene 8 o 4 GPU, generalmente combinado con CPU Intel o AMD, y utiliza NVLink y NVSwitch para lograr una interconexión completa (8 GPU suelen ser el límite superior de la interconexión completa de NVLink, excepto NVL y SuperPod).

Desde HGX A100 -> HGX H100 y HGX H200, la potencia informática densa del FP16 aumentó 3.3 veces, mientras que el consumo de energía es menos de 2 veces.

Desde HGX H100 y HGX H200 -> HGX B100 y HGX B200, la potencia informática densa del FP16 aumentó aproximadamente 2 veces, mientras que el consumo de energía es similar, como máximo no más del 50%.

Se debe notar que:

La red de HGX B100 y HGX B200 no se ha actualizado y la tarjeta de red IB sigue siendo de 8x400 Gb/s.

HGX B100 y HGX B200

NVL y SuperPod

Además de los servidores GPU de la serie HGX, NVIDIA también tiene soluciones para gabinetes y clústeres completos, todos utilizando la última solución Grace CPU + GPU y correspondientes a sistemas de refrigeración líquida. La siguiente tabla muestra los gabinetes NVL y SuperPod correspondientes para la arquitectura Hopper y la arquitectura Blackwell.

NVL32 -> NVL72: la cantidad de GPU aumentó de 32 a 72, y la potencia informática densa del FP16 aumentó de 32P a 180P, casi 6 veces, mientras que el consumo de energía también aumentó de 40kW (no se ha visto un número específico, datos estimados) a 120kW. , casi 3 veces.

GH200 SuperPod -> GB200 SuperPod: la cantidad de GPU aumentó de 256 a 576, y la potencia informática densa del FP16 aumentó de 256P a 1440P, casi 6 veces, y no se ha encontrado el consumo de energía correspondiente.

Las últimas tarjetas de red ConnectX-8 IB con ancho de banda de 800 Gb/s se utilizan en NVL72 y GB200 SuperPod, mientras que HGX B100 y HGX B200 todavía usan tarjetas de red ConnectX-7 IB con ancho de banda de 400 Gb/s.

Se debe notar que:

NVIDIA presentó que el SuperPod GB200 está compuesto por 8 NVL72, mientras que el SuperPod GH200 no está compuesto por 8 NVL32.

La cantidad de bandejas NVSwitch L1 y bandejas NVSwitch L2 en el SuperPod GB200 no se ha visto y son datos estimados.

SuperPod GB200

GPU Blackwell

Tanto la GPU Blackwell como la GPU H100 utilizan la tecnología de proceso 4N de TSMC. El H100 contiene 80 mil millones de transistores, mientras que la GPU Blackwell contiene 208 mil millones de transistores. Sin embargo, el H100 es un paquete de una sola matriz (unidad semiconductora completa única), mientras que la GPU Blackwell es un paquete de múltiples matrices con 2 matrices.

Cada chip de GPU Blackwell tiene aproximadamente 1.25 veces la potencia de cálculo del H100, y los dos chips juntos tienen alrededor de 2.5 veces la potencia de cálculo del H100. Esto también se puede ver en el número de transistores.

El ancho de banda de comunicación entre los dos troqueles es de 10 TB/s.

La memoria utiliza HBM3e, cada chip tiene un tamaño de 24 GB y un límite de ancho de banda teórico de 1.2 TB/s, con un ancho de banda real de 1 TB/s. Toda la GPU Blackwell tiene 8 de estos chips de memoria.

En resumen, las especificaciones clave de una GPU Blackwell completa son:

Potencia informática escasa (potencia informática densa * 2):

FP16: FLOPS 5P (2*2.5P)

FP8/FP6/INT8: 10P FLOPS (2*5P)

FP4: FLOPS 20P (2*10P)

Memoria:

Tamaño: 192 GB (8 * 24 GB)

Ancho de banda: 8 TB/s (8 * 1 TB/s)

GPU Blackwell

GH200 y GB200

GH200

El GH200 es la combinación de NVIDIA de la GPU H200 lanzada el año pasado y la CPU Grace. Cada CPU Grace está emparejada con una GPU H200, y la GPU H200 puede tener hasta 96 GB o 144 GB de memoria. La CPU Grace y la GPU Hopper están interconectadas a través de NVLink-C2C con un ancho de banda de 900 GB/s. Además del HBM3e, la CPU Grace también tiene 480 GB de memoria externa LPDDR5X, aunque el ancho de banda correspondiente es inferior a 500 GB/s.

GH200

GB200

A diferencia del GH200, cada GB200 consta de 1 CPU Grace y 2 GPU Blackwell, lo que duplica la potencia de cálculo y la memoria de la GPU. La CPU y las GPU todavía están interconectadas a 900 GB/s a través de NVLink-C2C. El consumo de energía correspondiente es de 1200W.

El GB200 incluye 384 GB de memoria HBM3e y los mismos 480 GB de LPDDR5X, para un total de 864 GB de memoria rápida.

GB200
memoria rápida

HGX H100/H200 y HGX B100/B200

HGX H100 y HGX H200

Como se muestra, el H200 tiene la misma potencia de cálculo que el H100, pero con mayor memoria. La memoria máxima para 8 GPU aumenta de 640 GB a 1.1 TB. La escasa potencia de cálculo del FP16 para 8 GPU es 16P y la escasa potencia de cálculo del FP8 es 32P. El ancho de banda de comunicación de GPU a GPU es de 900 GB/s para ambos.

HGX H100
HGX H200

HGX B100 y HGX B200

Los B100 y B200 corresponden a los anteriores H100 y H200 respectivamente, pero sin la CPU Grace, por lo que se pueden utilizar con CPU Intel o AMD.

La memoria del B100 y B200 es mayor que la del H100 y H200. La memoria máxima para 8 GPU es 1.5 TB (Nota: el sitio web de NVIDIA inicialmente mostraba 1.4 TB, que no coincide con 192 GB*8, y luego se corrigió a 1.5 TB, mientras que la hoja de datos de DGX B200 indica claramente 1440 GB, o 180 GB por GPU).

La potencia de cálculo del B100 es aproximadamente 3/4 de la del B200. La escasa potencia de cálculo del FP16 para 8xB100 es 28P, y para 8xB200 es 36P, por lo que 8xB200 es 2.25 veces mayor que la de 8xH100/H200. Esto significa que la escasa potencia de cálculo FP16 de un solo B200 es 4.5P. Cabe señalar que la potencia de cálculo real del B200 es el 90% del B200 completo (en el GB200).

HGX B200
HGX B100

La imagen muestra los datos de la hoja de datos del DGX B200.

Hoja de datos DGX B200

Los Tensor Cores de Blackwell han agregado soporte para FP6 y FP4, y la potencia de cálculo de FP4 es 2 veces la potencia de FP8 y 4 veces la potencia de FP16. Los CUDA Cores de Blackwell ya no son compatibles con INT8 y, a partir de Hopper, tampoco son compatibles con INT4.

Los Tensor Cores de Blackwell han agregado soporte para el formato de datos Microscaling, que puede ser la forma en que admiten FP8, FP6, FP4 e INT8.

Formato de datos de microescala
nombres de formato

NVSwitch de tercera generación

El NVSwitch de tercera generación tiene 64 puertos NVLink, cada uno con 2 carriles. El límite de ancho de banda es 64*50 GB/s = 3.2 TB/s.

NVSwitch de tercera generación

NVSwitch de cuarta generación

El chip NVSwitch tiene 72 puertos NVLink, cada uno con 2 carriles, con un ancho de banda bidireccional de 2 x 2 x 200 Gb/s = 100 GB/s, para un total de 7.2 TB/s. Los NVLink de 1.8 TB/s de la imagen corresponden a 18 puertos.

NVSwitch de cuarta generación

El B100 y el B200 utilizan NVLink de quinta generación y NVSwitch de cuarta generación. Cada GPU en B100 y B200 todavía tiene 18 NVLink, pero el ancho de banda por enlace se ha actualizado de 50 GB/s en el NVLink de cuarta generación (H100) a 100 GB/s. Por lo tanto, el ancho de banda máximo de GPU a GPU para B100 y B200 es de 1.8 TB/s.

el ancho de banda máximo para B100 y B200 es 1.8 TB

El NVSwitch de cuarta generación también duplica el ancho de banda de GPU a GPU a 1.8 TB/s. Puede admitir hasta 576 GPU, para un límite de ancho de banda total de 576*1.8 TB/s=1PB/s.

límite de ancho de banda total de 1PB.8TB=1PB

Tarjetas de red y conmutadores de red

Tarjeta de red ConnectX-8 InfiniBand

NVIDIA también ha lanzado una nueva generación de InfiniBand Tarjetas de red, ConnectX-8 (ConnectX-800G), con un ancho de banda de comunicación correspondiente de 800 Gb/s. Los H100 y H200 anteriores usaban la tarjeta de red ConnectX-7, con un ancho de banda de comunicación de 400 Gb/s, mientras que el A100 usaba la tarjeta de red ConnectX-6 con un ancho de banda de 200 Gb/s.

Tarjeta de red ConnectX-8IB

Sin embargo, NVIDIA no usó la nueva tarjeta de red ConnectX-800G en el HGX B100/B200 y, en su lugar, continuó usando la generación anterior ConnectX-7, como se muestra en las imágenes (NVIDIA lanza el SuperPOD DGX con tecnología Blackwell para supercomputación de IA generativa en La escala de billones de parámetros y la plataforma NVIDIA Blackwell llegan para impulsar una nueva era de la informática).

Sistemas DGX B200
NVIDIA ofrece la HGX B200

DPU/SuperNIC BlueField-3

BlueField-3 admite conexiones Ethernet e IB a velocidades de hasta 400 Gb/s y se puede combinar con aceleradores de hardware de red y almacenamiento, programados con NVIDIA DOCA. Con BlueField-3, existen BlueField-3 DPU y BlueField-3 SuperNIC correspondientes. BlueField-3 SuperNIC puede proporcionar acceso remoto directo a memoria (RoCE) Ethernet entre servidores GPU a velocidades de hasta 400 Gb/s, admitiendo un solo puerto de 400 Gb/s o dos puertos de 200 Gb/s. La generación anterior BlueField-2 SuperNIC solo admitía un puerto único de 200 Gb/s o un puerto dual de 100 Gb/s.

DPU BlueField-3
SuperNIC BlueField-2

Conmutador IB Quantum-X800

El Quantum-X800 es la nueva generación de switch NVIDIA Quantum IB, capaz de lograr 800Gb / s Conexiones de extremo a extremo con latencia ultrabaja, principalmente compatibles con la tarjeta de red NVIDIA ConnectX-8. El conmutador Quantum-X800 Q3400-RA correspondiente (4U) puede proporcionar 144 puertos de 800 Gb/s, como se muestra en la imagen, utilizando refrigeración por aire pero también admitiendo refrigeración líquida.

Conmutador IB Quantum-X800

Conmutador Ethernet Spectrum-X800

El Spectrum-X800 es la nueva generación de conmutador NVIDIA Spectrum Ethernet, que incluye dos tipos: SN5600 y SN5400, ambos con un diseño 2U.

Conmutador Ethernet Spectrum-X800

Como se muestra en la tabla, el SN5600 puede admitir hasta 800 Gb/s por puerto, con 64 puertos y un ancho de banda total de 51.2 Tb/s, mientras que el SN5400 puede admitir hasta 400 Gb/s por puerto, con 64 puertos y un ancho de banda total de 25.6 Tb/s. ancho de banda de XNUMXTb/s.

SN5600

GH200 NVL32 y GH200-SuperPod

Bandeja de computación GH200

La Compute Tray GH200 se basa en el diseño NVIDIA MGX (tamaño 1U), con 2 unidades GH200 por Compute Tray, es decir, 2 CPU Grace y 2 GPU H200.

Bandeja NVSwitch

La bandeja NVSwitch de primera generación contiene 2 chips NVSwitch de tercera generación, con un total de 128 puertos NVLink y un ancho de banda de comunicación máximo de 6.4 TB/s.

GH200 NVL32

Cada gabinete contiene 16 bandejas de computación GH200 y 9 bandejas NVSwitch, lo que da como resultado un total de 32 GPU GH200 y 18 NVSwitches. Las 32 GPU GH200 tienen 32×18=576 NVLinks y, en teoría, solo se necesitarían 576/64=9 NVSwitches para lograr una interconexión completa, pero este diseño incluye 18 NVSwitches.

GH200 NVL32

SuperPod GH200

El GH200 SuperPod está compuesto por 256 GPU GH200 en una configuración totalmente interconectada, pero no está compuesto por 8 unidades NVL32. En cambio, está compuesto por 32 Superchips 8-Grace Hopper.

Como se muestra en la Figura 7, cada superchip 8-Grace Hopper incluye:

8*Bandejas de computación Hopper (8U), cada una de las cuales contiene:

1 GPU GH200.

1 * tarjeta de red ConnectX-7 IB, 400Gb / s

1 tarjeta Ethernet de 200 Gb/s.

3*Bandejas NVSwitch (3U), con un total de 6*NVSwitches

8-Superchip Grace Hopper

Las conexiones NVLink se muestran en la Figura 6, y cada GH200 y cada NVSwitch tienen 3 conexiones NVLink. Esto utiliza 24 puertos por NVSwitch en esta dirección. Además, cada NVSwitch tiene 24 puertos conectados al NVSwitch L2, para un total de 48 puertos usados ​​por NVSwitch. (Nota: algunos de los puertos NVSwitch son redundantes y, en teoría, solo se necesitarían 4.5 NVSwitches, por lo que se eligieron 3 bandejas NVSwitch).

Conexiones NVLink

Como se muestra en la Figura 8, el SuperPod GH200 está compuesto por 32 Superchips 8-Grace Hopper. El nivel L1 contiene 32 x 3 = 96 bandejas NVSwitch (192 NVSwitches) y el nivel L2 contiene 36 bandejas NVSwitch (64 NVSwitches). Cada bandeja NVSwitch L1 tiene 24 x 2 = 48 puertos conectados a las bandejas NVSwitch L2, por lo que se necesitan 36 bandejas NVSwitch L2.

topología nvlink

Como se muestra en la Figura 12, las 256 GPU GH200 también están interconectadas a través de un conmutador IB de dos niveles.

topología de gestión de tejido

La conectividad completa del GH200 SuperPod se muestra en la Figura 5.

Conectividad completa del GH200 SuperPod

GB200 NVL72 y GB200 SuperPod

Bandeja de computación GB200

La bandeja de cómputo GB200 también se basa en el diseño NVIDIA MGX (tamaño 1U), y cada bandeja de cómputo contiene 2 unidades GB200, que son 2 CPU Grace y 4 GPU Blackwell, como se muestra en la imagen.

Bandeja de computación GB200

Cada bandeja de cómputo GB200 admite 1.7 TB de memoria rápida (Nota: "HBM3e" en la imagen probablemente sea un error tipográfico; debería ser "Memoria rápida", no "HMB3e"). Si se refiere a la memoria por GPU Blackwell, debería ser 192 GB x 4 = 768 GB. Los 1.7 TB probablemente incluyan los 480 GB adicionales de LPDDR5X por GB200, para un total de 768 GB + 480 GB x 2 = 1728 GB.

nodo de cálculo de blackwell
Memoria rápida de 1.7 TB

Bandeja NVSwitch

Como se muestra en la imagen, la bandeja NVSwitch de nueva generación también contiene 2 chips NVSwitch (tamaño 1U), con un total de 144 puertos NVLink (72 puertos NVLink por chip NVSwitch). Cada puerto tiene un ancho de banda de 100 GB/s, lo que admite un límite de ancho de banda total de 14.4 TB/s. El sistema NVSwitch de cuarta generación puede admitir hasta 576 GPU, por lo que el límite de ancho de banda total puede alcanzar 576 * 1.8 TB/s = 1 PB/s. (Nota: los 8 puertos en la imagen no son puertos NVLink, cada uno corresponde a 18 NVLink).

Los 8 puertos en la imagen no son puertos NVLink, cada uno en realidad corresponde a 18 NVLink.

El sistema NVSwitch utilizado en el NVL72 se muestra a continuación y contiene 9 bandejas NVSwitch. Los 72 puertos de la imagen corresponden a los puertos de la imagen anterior, no a los puertos NVLink, con un ancho de banda de 1.8 TB/s (18 NVLink de 100 GB/s).

El sistema NVSwitch utilizado en el NVL72

GB200 NVL72

Un GB200 NVL72 contiene 18 bandejas de cómputo GB200, por lo que tiene 36 CPU Grace y 72 GPU. La memoria total de la GPU es 72 * 192 GB = 13.8 TB, y la memoria rápida LPDDR5X de la CPU es 480 GB x 36 = 17 TB, por lo que la memoria rápida total es 30 TB. También incluye 9 bandejas NVSwitch.

NVIDIA también ofrece una configuración NVL36, que aún tiene 18 bandejas de cómputo GB200, pero cada bandeja de cómputo solo tiene un GB200, por lo que hay un total de 18 CPU Grace y 36 GPU B200. La potencia de cómputo correspondiente se muestra en la imagen. Por lo tanto, los 30 TB mencionados probablemente sean 13.5 TB de HBM3e + 17 TB de LPDDR5X.

NVIDIA también ofrece una configuración NVL36

La potencia informática correspondiente se muestra en la siguiente figura:

La potencia informática correspondiente.

Entonces, el HBM30e de 3 TB aquí también debería ser HBM13.5e de 3 TB + LPDDR17X de 5 TB:

30 TB HBM3e

SuperPod GB200

El GB200 SuperPod está compuesto por 8 unidades NVL72, con un total de 576 GPU Blackwell. Para lograr una interconectividad completa, similar a las 256 GPU GH200 anteriores, se requiere un sistema NVSwitch Tray de dos niveles (límite de ancho de banda teórico de 576 * 1.8 TB/s = 1 PB/s):

La bandeja NVSwitch de primer nivel tiene la mitad de sus puertos conectados a las 576 GPU Blackwell, por lo que se necesitan 576 * 18 / (144/2) = 144 bandejas NVSwitch (los 144 * 72 puertos restantes).

Las bandejas NVSwitch de segundo nivel tienen todos sus puertos conectados a los puertos NVSwitch de primer nivel restantes, por lo que se necesitan 144 * 72/144 = 72 bandejas NVSwitch. Cada bandeja NVSwitch de segundo nivel está conectada a todas las bandejas NVSwitch de primer nivel (2 puertos por conexión).

Las bandejas NVSwitch de segundo nivel

Análisis de datos de rendimiento

Rendimiento DGX GB200

NVIDIA afirma que el DGX B200 (correspondiente al HGX B200) tiene una mejora de 3 veces en el rendimiento del entrenamiento y una mejora de 15 veces en el rendimiento de inferencia en comparación con la generación anterior DGX H100 (HGX H100). Sin embargo, esto se hace con ciertas condiciones previas. Si nos fijamos únicamente en la potencia de cálculo del FP16 o FP8 desde HGX H100 a HGX B200, la potencia de cálculo ha aumentado en 2.25 veces. Pero el tamaño de la memoria es mayor, el ancho de banda de la memoria es aproximadamente 2.3 veces mayor y el ancho de banda de NVLink también se ha duplicado. Por lo tanto, la mejora general de 3 veces en la velocidad de entrenamiento está en línea con las expectativas.

Rendimiento DGX GB200

Como se muestra en la imagen, la velocidad de entrenamiento 3x se midió en sistemas 4096 HGX B200 frente a sistemas 4096 HGX H100, entrenando el modelo GPT-MoE-1.8T.

La velocidad de entrenamiento 3x se midió en sistemas 4096 HGX B200

Como se muestra en la imagen, la velocidad de inferencia 15x se midió en 8 sistemas HGX B200 frente a 8 sistemas HGX H100, utilizando el modelo GPT-MoE-1.8T para la inferencia (la inferencia del modelo GPT suele estar vinculada a E/S, por lo que el ancho de banda de la memoria es crucial). ; para admitir una mayor concurrencia, también es importante un tamaño de memoria grande; y dado que el modelo es grande, a menudo se utilizan estrategias como Tensor Parallel, por lo que el ancho de banda NVLink también es crucial). Lograron 3.5 Tokens/s y 58 Tokens/s respectivamente. Los factores que afectan la inferencia de GPT son numerosos y, para estos dos sistemas, las mejoras están determinadas por:

  • Ancho de banda de VRAM (8×3.35 TB/s -> 8x8 TB/s)
  • Tamaño de VRAM (8x141GB -> 8x192GB)
  • Ancho de banda NVLink (7.2 TB/s -> 14.4 TB/s)
  • Potencia de cálculo duplicada (16P -> 36P)
  • 8PM -> 4PM (x2)
inferencia de modelos de lenguaje grande en tiempo real

Como se muestra en la última imagen, Jensen Huang proporcionó una comparación más detallada en su discurso de apertura de GTC, mostrando que la mejora es solo de alrededor de 3 veces al comparar B200 FP8 y H200 FP8 (con TP, EP, DP, PP representando Tensor Parallel, Expert Parallel, paralelo de datos y paralelo de canalización). La mejora al utilizar GB200 en FP4 es muy significativa (probablemente debido a la interconexión NVLink completa en NVL72).

Comparando B200 FP8 y H200 FP8

Consumo de energía de entrenamiento GPT-MoE-1.8T

En su discurso de apertura de GTC, Jensen Huang también analizó el consumo de energía para entrenar el modelo GPT-MoE-1.8T, comparando las GPU Hopper y Blackwell:

  • Un solo gabinete NVL32 tiene 40kW, por lo que 8000 GPU serían alrededor de 10MW, más otro consumo de energía, probablemente alrededor de 15MW.
  • Un solo gabinete NVL72 tiene 120 kW, por lo que 2000 GPU representarían alrededor de 3.3 MW, más otro consumo de energía, como conmutadores de red, por un total de alrededor de 4 MW.
8000 GPU
2000 GPU

Deja un comentario

Ir al Inicio