En la conferencia GTC 2024, NVIDIA presentó su revolucionario chip de inteligencia artificial Blackwell. ¿Qué lo distingue y qué barreras infranqueables supera?
Antes de profundizar en los detalles de Blackwell, comprendamos en profundidad la filosofía de diseño del GB200. El GB200 representa el superchip de IA más potente de NVIDIA y podría formar la columna vertebral de los servidores de IA más potentes del mundo. ¿Cómo logró NVIDIA esta hazaña?
La respuesta está en una investigación y un desarrollo meticulosos, junto con una estrategia de expansión clara. Jensen Huang (director ejecutivo de NVIDIA) reveló que el costo de desarrollo de Blackwell fue de aproximadamente 10 mil millones de dólares, una inversión asombrosa.
Ahora, profundicemos en las cinco capas de potencia informática:
Potencia de cómputo de un solo chip
En el marco de las limitaciones de una tecnología de proceso equivalente, un área de chip más grande permite alojar más transistores. El tamaño del chip de Blackwell supera los límites, ya que abarca una oblea entera (800 mm²) dentro de los límites de exposición máxima de las máquinas de litografía. Huang bromeó con humor diciendo que si se ampliaba el tamaño, toda la oblea podría fracturarse debido a limitaciones físicas.
Muchos perciben la potencia de procesamiento de la IA como la acumulación de núcleos multiprocesador (SM) en tiempo real. Si bien esto es cierto hasta cierto punto, es esencial explorar los avances en la potencia de procesamiento de una sola tarjeta. Por ejemplo, el procesador Ascend 910B de Huawei se acerca a los niveles del A100 al aumentar los SM.
Sin embargo, como veremos, la potencia de procesamiento de una sola tarjeta representa solo el primer nivel de capacidad de IA. Examinemos ahora el progreso de Blackwell en este ámbito.
Para abordar este tema, revisemos el desarrollo histórico de las tarjetas aceleradoras de IA de NVIDIA. La tarjeta aceleradora de IA de primera generación, Volta, introdujo la arquitectura Tensor Core diseñada específicamente para cálculos de IA. La GPU V100, basada en esta arquitectura, contaba con 80 unidades SM, cada una de las cuales contenía 8 núcleos computacionales (bloques). Cada núcleo podía completar 128 operaciones de multiplicación-acumulación de punto flotante de 16 bits por ciclo. Con una frecuencia de reloj de 1.53 GHz, la potencia de cómputo de punto flotante de la V100 ascendía a 125 teraflops (TFLOPS).
Para facilitar la comprensión, vamos a explicar brevemente algunas de las abreviaturas que se usan aquí. “FLOPS” significa “Floating Point Operations Per Second” (operaciones de punto flotante por segundo), que representa la cantidad de cálculos de punto flotante que se realizan por segundo. “Tera” es una unidad de notación científica, donde 1 Tera equivale a 1000 Giga. En este contexto, “Tera” corresponde a un orden de magnitud específico.
Ahora, profundicemos en los detalles de las distintas arquitecturas de GPU de NVIDIA:
Arquitectura de Turing (T4):
- La arquitectura de computación tensorial de segunda generación de NVIDIA se llama “Turing” y representa la tarjeta gráfica T4.
- Una tarjeta T4 contiene 40 multiprocesadores de transmisión (SM) y otras especificaciones son similares a las de la V100.
- En consecuencia, la potencia computacional del T4 es aproximadamente la mitad de la del V100, concretamente alrededor de 65 TFLOPS.
Arquitectura Ampere (A100):
- La arquitectura de procesamiento tensorial de tercera generación es Ampere, que incluye las conocidas tarjetas gráficas de la serie A100.
- Con los avances en la tecnología de fabricación de chips, el A100 presenta 108 SM (el doble de la generación anterior) con la misma cantidad de núcleos que el V100.
- Las unidades de cómputo mejoradas permiten que cada núcleo realice 256 multiplicaciones y acumulaciones de punto flotante por ciclo (el doble de la capacidad de la arquitectura anterior).
- Además, el A100 presenta un modo de punto flotante de 8 bits (FP8) optimizado para cargas de trabajo de aprendizaje profundo. Cada núcleo de 16 bits puede funcionar como dos núcleos de 8 bits, lo que aumenta aún más la potencia computacional.
- A pesar de una ligera disminución en la frecuencia de reloj (1.41 GHz), el A100 alcanza casi 5 veces la potencia computacional del V100, totalizando 624 TFLOPS (FP8).
Arquitectura de Hopper (H100):
- La arquitectura de cuarta generación, conocida como Hopper, fue lanzada por NVIDIA el año pasado.
- Aunque el número de SM (132) en la serie H100 no aumentó significativamente en comparación con la generación anterior, presenta una novedosa arquitectura Tensor Core y un diseño de memoria asincrónica.
- Cada núcleo SM ahora puede realizar multiplicaciones y acumulaciones FP16 512 veces por ciclo.
- La frecuencia de reloj es ligeramente superior, 1.83 GHz.
- Como resultado, una sola tarjeta H100 logra unos sorprendentes 1978 Tera FLOPS (FP8), entrando por primera vez en el dominio PFLOPS (1.97 Peta FLOPS).
- Para poner esto en perspectiva, 1 PFLOPS equivale a 1000 TFLOPS.
- Imagínese ampliar la capacidad de su disco duro mil veces y tendría 1 PB, una unidad de almacenamiento común en grandes centros de datos.
La semana pasada, Huang presentó la arquitectura Blackwell de quinta generación, lo que supone un avance significativo en cuanto a potencia computacional. Según los datos disponibles públicamente, se espera que el GB200, que utiliza la nueva unidad de datos FP4, alcance 20 petaFLOPS de potencia computacional en tareas de inferencia. Cuando se convierta de nuevo a la precisión FP8, debería seguir ofreciendo unos impresionantes 10 PFLOPS, lo que representa una mejora de aproximadamente cinco veces con respecto al H100.
La información divulgada públicamente indica que Blackwell opera a una frecuencia de reloj de 2.1 GHz. Suponiendo cambios arquitectónicos mínimos, esto implica que Blackwell contará con 600 multiprocesadores de transmisión (SM), casi cuatro veces más que el H100. Con dos matrices en el diseño de Blackwell, incluso una GPU de una sola matriz tendrá el doble de SM que el H100.
El notable aumento de la potencia computacional se debe en gran medida a los avances en litografía, grabado de chips y limitaciones físicas relacionadas con el tamaño de las obleas (el primer nivel de mejora). Además, el continuo perfeccionamiento de la arquitectura Tensor Core por parte de NVIDIA, que incluye canales optimizados para Transformers y controladores CUDA dedicados, ha contribuido significativamente al rendimiento mejorado de Blackwell.
Sin embargo, el aumento fundamental en la potencia computacional de Blackwell se debe principalmente al mayor número de SM. En comparación con la arquitectura Hopper introducida en 2023, Blackwell logra una mejora de aproximadamente cinco veces. En comparación con la arquitectura Volta de 2017, el salto es aún más sustancial: alrededor de 40 veces.
La segunda capa de potencia computacional implica interconexiones Die-to-Die.
Blackwell alcanza los 600 SM al crear el chiplet más grande del mundo: uniendo directamente dos núcleos de GPU en una unidad masiva que rompe las limitaciones físicas de una sola oblea. La velocidad de comunicación entre estos núcleos alcanza la asombrosa cifra de 10 TB/s, lo que los hace percibirse como un solo chip colosal.
Si bien las limitaciones de las fotomáscaras, la exposición, el tamaño de las obleas y las dimensiones del proceso suelen limitar la cantidad de transistores en un solo chip, Blackwell desafía estos límites. Su área de chip abarca 800 milímetros cuadrados, lo que se conoce como "tamaño reticular", lo que indica el tamaño máximo que se puede producir con máquinas de fotolitografía.
La ambición de Huang no termina ahí. Se aventura a un nivel superior de potencia computacional: conectar dos chips para formar un chiplet aún más grande. Mientras la velocidad de interconexión siga siendo lo suficientemente rápida, estos dos chipsets funcionarán como una sola unidad: el nacimiento de la GPU más grande del mundo.
¿Por qué dos chiplets y no tres o cuatro? En este caso se aplica el principio de que “uno genera dos, dos genera todo”. “Dos” representa la solución óptima para la comunicación y la complejidad de los chips dentro de las limitaciones tecnológicas actuales.
Apple también tiene su propia tecnología de interconexión de doble matriz llamada UltraFusion, aunque con una capacidad de comunicación reducida (solo 2.5 TB/s). Sin embargo, las GPU de Huang Renxun son productos industriales, que superan con creces a los productos electrónicos de consumo.
Este logro es una demostración de destreza sin costo alguno por parte de NVIDIA, impulsada por la explosiva demanda de potencia computacional. Blackwell cuenta con la comunicación de matriz a matriz más rápida del mundo, con una asombrosa velocidad de 10 TB/s, utilizando una tecnología llamada NV-HBI (interfaz de alto ancho de banda), que aún no se ha revelado. Especulamos que podría ser una variante de NVLINK 5.0 o de los serdes XSR de 224G, que emplean 48 grupos de canales para un ancho de banda total de 10 TB/s.
Independientemente de la tecnología específica que adopte NVIDIA, esto plantea exigencias completamente nuevas en materia de empaquetado avanzado. Las empresas de empaquetado, mediante intrincados hilos de cobre en el interior de la placa y bolas de soldadura de metal en la parte posterior de la PCB, logran complejas interconexiones 2.5D, una verdadera proeza técnica. El empaquetado, superado solo por la fotolitografía, presenta un desafío significativo para la industria nacional de chips.
En resumen, Blackwell cuenta con 206 mil millones de transistores, que admiten hasta ocho pilas de memoria HBM3e (en lugar de cuatro), cada una con 24 GB de capacidad y un ancho de banda de 1 TB/s. En consecuencia, la GPU B200 ofrecerá un total de 192 GB de memoria y un ancho de banda de memoria de 8 TB/s.
El costo de investigación y desarrollo de las GPU Blackwell es de unos asombrosos 10 mil millones de dólares. Alcanzar la máxima potencia computacional con una sola GPU marca la primera línea de defensa para los procesadores de supercomputación de IA de NVIDIA.
En cuanto a interconectar tres, cuatro o más GPU, Huang Renxun deja ese desafío al siguiente nivel de potencia computacional: NVLink.
El tercer nivel de potencia computacional de la arquitectura Blackwell de NVIDIA involucra NVLink e interconecta 72 GPU.
Aunque combinar dos matrices en una sola GPU parece una opción potente, las aplicaciones prácticas aún requieren más. Para los modelos de lenguaje de gran tamaño con cientos de miles de millones de parámetros, lograr un entrenamiento oportuno en corpus de texto masivos con billones de tokens exige una computación paralela extensa.
El paralelismo de datos es un aspecto en el que los pesos de los modelos e incluso las capas individuales deben distribuirse entre diferentes GPU para realizar cálculos en paralelo, logrando así una aceleración tridimensional de tipo "dividir y vencer". Para el entrenamiento en paralelo de modelos de lenguaje grandes, podemos consultar los conocimientos de HuggingFace sobre este tema.
Lo que debemos entender es que incluso con abundante memoria, una sola GPU no es suficiente para el entrenamiento de modelos de lenguaje grandes.
La solución de NVIDIA consiste en ensamblar dos GPU Blackwell y un procesador Arm (CPU Grace) en una única placa base. Este producto, denominado GB200 (Grace Blackwell 200), cuenta con dos GPU Blackwell y cuatro matrices, lo que da como resultado una potencia computacional en FP8 de 20 PFLOPS, el doble que la de una única GPU. Las dos GPU están interconectadas mediante la tecnología NVLink, asistida por la CPU Grace, logrando un ancho de banda de comunicación de 1.8 TB/s por GPU y un ancho de banda total de 3.6 TB/s. La conexión específica se ilustra en el siguiente diagrama:
Posteriormente, NVIDIA ensambla 36 de estas placas PCB (denominadas bastidor) en un chasis de servidor estándar. Estas 36 placas base permanecen interconectadas mediante NVLink, facilitado por señales eléctricas de cable de cobre.
Según el estándar NVLink 5, cada GPU puede comunicarse con hasta otras 18 GPU simultáneamente, lo que da como resultado un ancho de banda total de 1.8 TB/s (14 veces el de PCIe 5). En total, las 72 GPU logran un ancho de banda de comunicación combinado de 130 TB/s, que teóricamente podría dar cabida a todo Internet.
Este gabinete, equipado con 72 núcleos GPU Blackwell, se llama GB200 NVL72. La interconexión de 72 GPU supera los esquemas paralelos tradicionales de 8 GPU (como los de Huawei y AMD) por un factor de 9. La capacidad de memoria HBM72e de alta velocidad configurable de NVL3 aumenta de los 192 GB de una sola tarjeta a la friolera de 13.5 TB, con un ancho de banda de memoria máximo de 576 TB/s.
Estas cifras pueden parecer vertiginosas, pero su impacto en la velocidad de entrenamiento de modelos grandes es innegable. En comparación con el GB200 con solo dos GPU, la mejora del rendimiento del NVL72 es de 36 veces. Realmente hemos ingresado al reino de la supercomputación, donde la simplicidad se encuentra con la fuerza bruta.
En concreto, el GB200 NVL72 alcanza los 720 PFLOPS en potencia computacional en FP8 y, por primera vez, entra en el ámbito Exa con 1.44 Exa FLOPS en FP4. Esto explica por qué, en tareas de inferencia, el NVL72 supera al H100 hasta 30 veces.
La potencia computacional a exaescala ahora rivaliza con las mejores supercomputadoras del mundo. Mientras que las supercomputadoras alcanzan este nivel de rendimiento utilizando cálculos FP64 y millones de núcleos de CPU, GB200 NVL72 lo logra con solo 72 GPU
Computación de cuarta capa: NVSwitch, SuperPOD
Cuando un gabinete no es suficiente, la solución es agregar más gabinetes. Este enfoque directo y de fuerza bruta es el principio fundamental detrás de la estrategia de supercomputación Scale Up de Jensen Huang.
En teoría, el uso de NVSwitch permite un máximo de 576 conexiones de GPU a través de NVLink. Casualmente, esto coincide con la configuración de 8 gabinetes GB200-NVL72, a los que NVIDIA se refiere como GB200 SuperPOD.
Cada NVSwitch proporciona hasta 144 interfaces NVLink. En un solo gabinete, se necesitarían 9 NVSwitches, lo que daría como resultado 72 GPU, cada una de ellas completamente cargada con 18 conexiones NVLink (72 * 18 = 9 * 144).
NVLink ofrece una conexión de GPU de todos a todos, lo que significa que cada GPU tiene canales ascendentes y descendentes que se conectan a cualquier otra GPU dentro del sistema.
NVLink 5 tiene una ventaja significativa sobre el producto GH100 anterior: mientras que la generación anterior permitía un máximo de 64 canales NVLink por NVSwitch y 256 GPU en un sistema NVLINK, GB200 puede alojar 72 GPU en un solo gabinete (6 H100). Para 256 GPU en 8 gabinetes, necesitaría un total de 72 NVSwitches (9 * 8).
Entre los gabinetes, las tarjetas de red de la serie ConnectX de NVIDIA, que utilizan estándares InfiniBand, se conectan a través de Ethernet a 400 GB/s. Esto explica los cables azules visibles en la parte posterior de la configuración ilustrada. Un OSFP de 800 G generalmente admite 2 canales a 400 GB/s u 8 canales a 100 GB/s.
Como alternativa, un enfoque no convencional implica el uso de NVSwitches para interconectar los gabinetes más externos, como se muestra a continuación. En esta configuración, 8 H100 forman un nodo, lo que da como resultado 32 nodos. Cada nodo se conecta internamente mediante 4 NVSwitches. Siguiendo la disposición de los conmutadores de fibra en el diagrama, se utilizan 18 NVSwitches adicionales para conectar completamente las interfaces de repuesto en cada nodo. Esto suma un total de 146 NVSwitches.
Si bien el ancho de banda agregado máximo de NVSwitch es de 1 PB/s (casi 500 veces el de un solo NVLink), su ancho de banda máximo sin bloqueo de 14.4 TB/s está muy por debajo de los 130 TB/s dentro de un solo gabinete NVL72. Por lo tanto, el escalamiento del rendimiento no está exento de pérdidas. Durante el entrenamiento, las tareas de comunicación deben ocurrir principalmente dentro de los gabinetes, y la comunicación entre gabinetes debe reservarse para necesidades específicas, como actualizaciones de gradiente después de completar un lote.
Sin duda, si puede permitirse estos 8 gabinetes, su potencia computacional (cálculos FP4) alcanzaría la asombrosa cifra de 11.52 Exa FLOPS. Incluso para el FP8 de uso común, eso es 5.76 Exa FLOPS. Impresionante, ¿no?
Computación de quinta capa: superfábrica de IA
En la conferencia GTC anterior, en 2023, Huang presentó una imagen intrigante: un sistema capaz de soportar 8,000 GPU y completar el entrenamiento de un modelo de lenguaje experto híbrido MoE de 400 mil millones de parámetros en solo 20 horas, una tarea que de otro modo habría llevado tres meses. Es probable que NVIDIA esté colaborando con proveedores de la nube como Azure, y es seguro asumir que este sistema es un fenómeno global único en su tipo.
Es probable que la gran cantidad de GPU se interconecte a través de múltiples SuperPOD mediante conmutadores ópticos y topología de fibra. Todo el centro de datos se convertirá en un reino dominado por las GPU. En el futuro, junto con las plantas de energía nuclear, podemos presenciar el surgimiento de fábricas computacionales, muy similares al profético Roboam de la serie de televisión "Westworld". Estas fábricas crearán AGI (Inteligencia General Artificial) y, potencialmente, gobernarán el mundo humano.
A continuación, encontrará un diagrama conceptual de la fábrica computacional, seguido de una imagen de Roboam:
¿En cuanto a la potencia computacional? Si aún sientes curiosidad, considera lo siguiente: con 8,000 GPU (20 veces la estimación de SuperPOD), los cálculos de FP4 alcanzarían una cifra sin precedentes de 220 Exa FLOPS. Incluso para el FP8 de uso común, estamos hablando de 115 Exa FLOPS.
Productos relacionados:
- NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m en OM3/50m en OM4 MTP/MPO-12 Módulo transceptor óptico FEC multimodo $650.00
- NVIDIA MMA4Z00-NS-FLT Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $850.00
- NVIDIA MMA4Z00-NS Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $750.00
- NVIDIA MMS4X00-NM Compatible 800 Gb/s Puerto doble OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 Módulo transceptor óptico SMF $1100.00
- NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Módulo transceptor óptico $1200.00
- NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $800.00
- Mellanox MMA1T00-HS Compatible 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 módulo transceptor óptico $200.00
- Compatible con NVIDIA MFP7E10-N010 10 m (33 pies) 8 fibras Baja pérdida de inserción Hembra a hembra Cable troncal MPO Polaridad B APC a APC LSZH multimodo OM3 50/125 $47.00
- NVIDIA MCP7Y00-N003-FLT Compatible 3 m (10 pies) 800G OSFP de doble puerto a 2x400G OSFP de parte superior plana InfiniBand NDR Breakout DAC $275.00
- Cable de cobre de conexión directa, 7m (70 pies), 002G, doble puerto, 2x7G OSFP a 400x2G QSFP200, Compatible con NVIDIA MCP4Y100-H56 $155.00
- Cable de cobre activo InfiniBand NDR de 4 m (80 pies) compatible con NVIDIA MCA003J3-N10-FTF de doble puerto 800x2G OSFP a 400x2G OSFP, parte superior plana en un extremo y parte superior con aletas en el otro $600.00
- NVIDIA MCP7Y10-N002 Compatible con 2m (7 pies) 800G InfiniBand NDR OSFP de doble puerto a DAC de ruptura 2x400G QSFP112 $200.00