Blackwell de NVIDIA presenta desarrollo para DAC, LACC y 1.6T OSFP-XD

Plataforma Blackwell de nueva generación

El 19 de marzo de 2024, NVIDIA presentó en el GTC una nueva generación de la plataforma de arquitectura Blackwell.

Esta nueva plataforma incluye el nuevo chip de IA GB200, el motor Transformer de segunda generación (que utiliza la tecnología central patentada de Blackwell Tensor para duplicar las capacidades de inferencia de IA y los tamaños de los modelos), la solución NVLink de quinta generación (diseñada para acelerar billones de parámetros y modelos complejos de IA). , capaz de interconectar hasta 576 GPU, lo que proporciona un aumento de 9 veces en el rendimiento de la GPU), el motor RAS (confiabilidad, disponibilidad y capacidad de servicio) (identifica fallas potenciales tempranas, reduce el tiempo de inactividad, mejora las capacidades inteligentes de recuperación y mantenimiento), servicios de seguridad inteligentes ( proteger los modelos de IA y los datos de los clientes sin comprometer el rendimiento general, admitir protocolos de cifrado de interfaz nativa de próxima generación diseñados para industrias con altos requisitos de privacidad de datos, como la atención médica y las finanzas).

Figura 1: NVIDIA presenta la plataforma Blackwell de próxima generación

NVIDIA presenta la plataforma Blackwell de próxima generación
Fuente: https://www.nvidia.com

El NVLink de quinta generación de NVIDIA mejora significativamente la escalabilidad de los clústeres multi-GPU de gran tamaño, con un ancho de banda total de 1.8 TB/s por GPU Blackwell de un solo núcleo. Cada GPU Blackwell Tensor Core puede admitir hasta 18 conexiones NVLink de 100 GB/s, lo que proporciona un ancho de banda total de hasta 1.8 TB/s. Este rendimiento de ancho de banda es el doble del del producto H200 de la generación anterior de NVIDIA y 14 veces el de la tecnología PCIe 5.0. La plataforma de servidor NVL200 GB72 aprovecha la última tecnología NVLink de NVIDIA para ofrecer una mayor escalabilidad para los modelos de IA de gran tamaño más complejos del mundo.

Figura 2: Rendimiento de la arquitectura de red NVLink de quinta generación de NVIDIA

Rendimiento de la arquitectura de red NVLink de quinta generación de NVIDIA
Fuente: https://www.nvidia.com

La nueva plataforma de conmutador IB Quantum-X800 de NVIDIA admite clústeres de mil tarjetas

NVIDIA ha presentado el primer end-to-end del mundo Banda Infinita 800G plataforma de conmutador de red, Quantum-X800, diseñada para modelos grandes de IA a escala de billones de parámetros. La nueva plataforma de conmutador NVIDIA IB admite tecnología informática en red basada en hardware, protocolo escalable de reducción de agregación jerárquica SHARP v4, enrutamiento adaptativo y control de congestión de red basado en monitoreo remoto. Consta de tres componentes principales:

Conmutador NVIDIA Quantum-X800 Q3400-RA 4U InfiniBand: el primer conmutador del mundo que utiliza tecnología de canal único de 200 Gb/s que mejora significativamente el rendimiento de la red y la velocidad de transmisión. Este conmutador proporciona 144 puertos con velocidades de 800 GB/s cada uno, facilitados por 72 módulos ópticos OSFP-XD de 1.6 T (conectados a través del administrador de estructura unificada UFM de NVIDIA). Aprovechando el alto rendimiento del nuevo conmutador Quantum-X800 Q3400, su topología de red de árbol denso de dos capas puede conectar hasta 10,368 3400 tarjetas de interfaz de red (NIC) con una latencia extremadamente baja, manteniendo al mismo tiempo la máxima localidad de red. El conmutador Q19 emplea refrigeración por aire y es compatible con bastidores estándar de 3400 pulgadas; NVIDIA también ofrece el modo de refrigeración líquida paralela Q21-LD adecuado para bastidores de XNUMX pulgadas de Open Compute Project (OCP).

Figura 3: Plataforma de conmutador IB de nueva generación de NVIDIA Quantum-X800

Plataforma de conmutador IB de nueva generación de NVIDIA Quantum-X800
Fuente: https://www.nvidia.com

Tarjeta de interfaz de red NVIDIA ConnectX-8 SuperNIC: utiliza la arquitectura de adaptador de red de última generación de NVIDIA para ofrecer aislamiento de rendimiento y red de 800 Gb/s de extremo a extremo, especialmente diseñada para gestionar de forma eficiente nubes de IA generativas de múltiples inquilinos. La ConnectX-8 SuperNIC proporciona un rendimiento de datos de 800 Gb/s a través de PCIe 6.0, lo que ofrece hasta 48 canales de transmisión para diversas aplicaciones, incluida la conmutación PCIe interna del sistema GPU NVIDIA. Además, la nueva SuperNIC es compatible con la última tecnología de computación en red de NVIDIA, MPI_Alltoall y motores de hardware de coincidencia de etiquetas MPI, así como con mejoras estructurales como servicio de alta calidad y control de congestión de red. La ConnectX-8 SuperNIC es compatible con conectores OSFP224 de un solo puerto y QSFP112 de dos puertos, compatibles con varios factores de forma, incluidos OCP3.0 y CEM PCIe x16. También es compatible con la expansión auxiliar de 16 canales NVIDIA Socket Direct.

Figura 4: Nueva tarjeta de interfaz de red IB NVIDIA ConnectX-8 SuperNIC

NVIDIA ConnectX-8 SuperNIC Nueva tarjeta de interfaz de red IB
Fuente: https://www.nvidia.com

Cables y transceptores LinkX: la cartera de productos de interconexión de plataforma Quantum-X800 de NVIDIA incluye transceptores de conexión con cables de conexión directa pasivos (DAC) y cables de cobre activos lineales (LACC), lo que proporciona una mayor flexibilidad para crear topologías de red preferidas. Esta solución de interconexión incluye específicamente transceptores de conexión 2xDR4/2xFR4 monomodo de puerto dual, cables DAC pasivos y cables de cobre activos lineales LACC.

Figura 5: Cables y transceptores NVIDIA LinkX

Cables y transceptores NVIDIA LinkX
Fuente: https://www.nvidia.com

Solución NVIDIA GB200 NVL72

La solución NVIDIA GB200NBL72 ofrece un aumento de 30 veces en la velocidad de inferencia, un aumento de 4 veces en la velocidad de entrenamiento, una mejora de 25 veces en la eficiencia energética y una mejora de 18 veces en el rendimiento del procesamiento de datos para modelos de IA de billones de parámetros.

Figura 6: NVIDIA lanza la solución GB200 NVL72

NVIDIA lanza la solución GB200 NVL72
Fuente: https://www.nvidia.com
  1. En términos de rendimiento de inferencia, la solución GB200 NVL72 utiliza el motor Transformer de última generación que admite FP4 AI y emplea NVLink de quinta generación para proporcionar una mejora de 30 veces en el rendimiento de inferencia del modelo de lenguaje grande (LLM) para modelos grandes de billones de parámetros. Logra mayor precisión y rendimiento con el nuevo microformato Tensor Core e implementa un gran grupo de GPU de 72 GPU en un solo gabinete mediante refrigeración líquida.
  2. Para el rendimiento del entrenamiento, el motor Transformer de segunda generación con precisión FP8 acelera 4 veces los modelos de lenguaje grandes y las velocidades de entrenamiento a gran escala. Proporciona una velocidad de interconexión de GPU a GPU de 1.8 Tb/s a través del NVLink de quinta generación utilizando redes de conmutadores InfiniBand y el software NVIDIA Magnum IO.
  3. En cuanto a la eficiencia energética, el GB200 NVL72 refrigerado por líquido reduce significativamente el consumo de energía del centro de datos. La tecnología de refrigeración líquida mejora la densidad informática al tiempo que reduce el espacio en el rack del servidor, lo que permite una comunicación GPU de gran ancho de banda y baja latencia dentro de grandes arquitecturas de dominio NVLink. En comparación con el gabinete enfriado por aire NVIDIA H100 de la generación anterior, el gabinete enfriado por líquido GB200 ofrece una mejora de rendimiento 25 veces mayor con el mismo consumo de energía y al mismo tiempo reduce efectivamente el uso de agua.
  4. En términos de rendimiento de procesamiento de datos, aprovechando el rendimiento de la memoria de alto ancho de banda en la arquitectura NVIDIA Blackwell, la tecnología NVLink-C2C y los motores de descompresión dedicados, el GB200 aumenta las velocidades de consulta de bases de datos críticas 18 veces en comparación con las CPU, al tiempo que reduce los costos TCO en 5 veces.

Figura 7: Solución GB200 NVL72 de NVIDIA con un rendimiento de inferencia 30 veces mejor, un rendimiento de entrenamiento 4 veces mejor y una eficiencia energética 25 veces mejor

La solución GB200 NVL72 de NVIDIA
Fuente: https://www.nvidia.com

El gabinete único GB200 NVL72 de NVIDIA consta de 9 conmutadores NV L1 y 18 nodos de cómputo. Cada nodo de cómputo consta de una bandeja de GPU de una sola capa en el gabinete, y cada bandeja contiene 2 módulos. Cada unidad consta de 2 GPU Blackwell y 1 CPU Grace, con un total de 4 GPU por bandeja. El gabinete alberga 18 nodos de cómputo (10 en la mitad superior y 9 en la mitad inferior), con un total de 72 GPU Blackwell y 36 CPU Grace. El rendimiento computacional alcanza 1440 PFLOPS (FP4)/720 PFLOPS (FP8/FP6)/720 PFLOPS (INT8), con una memoria GPU máxima de 13.5 TB (HBM3e). Los parámetros de interconexión incluyen 72 VPI ConnectX-7 de puerto único OSFP (Banda Infinita 400G), con parámetros de rendimiento para la tarjeta de red ConnectX-8 aún por actualizar. El rendimiento del chip GB200 AI puede alcanzar 40 PFLOPS (FP4)/20 PFLOPS (FP8/FP6)/10 PFLOPS (INT8), con una memoria GPU máxima de 384 GB (HBM3e).

Figura 8: NVIDIA anuncia el chip GB200 Superchip AI

NVIDIA anuncia el chip de inteligencia artificial GB200 Superchip
Fuente: https://www.nvidia.com

NVIDIA lanza el chip de inteligencia artificial GB200 Superchip

Parámetros de rendimiento detallados del chip NVIDIA GB200 NVL72 y GB200 AI

Análisis de los requisitos de la arquitectura de red GB200 de próxima generación de NVIDIA para módulos ópticos y de conectividad de cobre

La conectividad de cobre tiene ventajas rentables en la era del switch de 224 GB

La conectividad de cobre tiene ventajas de precio/rendimiento y consumo de energía en la tendencia de agrupamiento de conmutadores y servidores de alta densidad, y se espera que la conectividad por cable de cobre sea la mejor solución para la era de los conmutadores de 224 Gb/s, paso a paso. Un cambio importante en la solución GB200 de NVIDIA radica en la interconexión entre conmutadores y nodos de cómputo en un solo gabinete, y la conexión interna de los conmutadores mediante conexión de cable de cobre en lugar de la anterior conexión PCB-módulo óptico-cable. Las interconexiones GB200 se dividen en tres categorías principales:

(1) Conexión entre armarios GB200 NVL72 (cable externo): Los grandes centros de datos a menudo requieren una gran cantidad de gabinetes para la computación en paralelo; si los gabinetes necesitan conectarse en red externamente, se conectan a través del conmutador TOR con un cable DAC/AOC (como se muestra en la Figura 10). Para una gran cantidad de gabinetes, la interconexión externa debe instalarse en el gabinete encima del equipo de cableado para una conexión ordenada. La longitud del cable suele ser larga, el cable de cobre mide más de 2 a 4 metros después de que no se pueden cumplir los requisitos de conexión, por lo que la interconexión de larga distancia del uso principal de cables de fibra óptica para conectar, los cables de cobre en este enlace no pueden completamente Reemplace los cables de fibra óptica.

Figura 9: Diagrama de interconexión entre gabinetes NVIDIA GB200 NVL72

Diagrama de interconexión entre gabinetes NVIDIA GB200 NVL72
Fuente: https://www.nvidia.com

(2) Conexión de gabinete simple GB200 NVL72 (cables internos del gabinete) – todos reemplazados por cables de cobre: En la Figura 10, ocho nodos informáticos y nueve conmutadores están conectados internamente a través de cables de cobre en el área amarilla de la Figura 10, y el La placa posterior de cable de cobre reemplaza el uso anterior de interruptores TOR y nodos informáticos a través de la conexión de cable-módulo óptico de placa posterior de PCB. Para la nueva generación de conmutadores con un solo canal de 224 GB/s, el consumo de energía de los módulos ópticos de 800G/1.6 T suele ser superior a 16 W, y si el esquema de conexión del GB200 NVL72 se basa en la conexión anterior de módulos ópticos, causará problemas de alto consumo de energía. Las conexiones de cobre consumen menos energía y son más rentables que los módulos ópticos. El CEO de Broadcom también mostró recientemente su apoyo a la actitud de conexión de cobre: “Los dispositivos ópticos en la red de comunicación consumirán mucha energía y costos, por lo que en la nueva generación de conmutadores de Broadcom se evita el uso de dispositivos ópticos, pero en la medida de lo posible se utiliza el programa de conexión de cobre. Los dispositivos ópticos sólo se utilizarán cuando la transmisión de cobre no pueda satisfacer la demanda”.

Figura 10: Diagrama esquemático de las conexiones del conmutador y del nodo de cálculo dentro del chasis único NVIDIA GB200 NVL72

Diagrama esquemático de las conexiones del conmutador y del nodo de cálculo dentro del chasis único NVIDIA GB200 NVL72
Fuente: https://www.nvidia.com

Figura 11: Plano posterior del cable de cobre NVIDIA GB200 NVL72 y esquema del conector del plano posterior

Plano posterior del cable de cobre NVIDIA GB200 NVL72 y esquema del conector del plano posterior
Fuente: https://www.nvidia.com

3) Conmutador NV interno: utiliza un cable de cobre para realizar la conexión desde el conector del backplane al chip del conmutador: para un conmutador de un solo canal de 224 Gb/s, como se muestra en la parte amarilla de la Figura 13, el área de la placa PCB también es limitada. no es suficiente para cubrir toda el área, por lo que no es posible realizar la conexión de enlace a una distancia más larga, y el puente de cobre puede realizar la conexión desde el backplane al chip del conmutador.

Figura 12: Diagrama esquemático de la solución de conexión de cobre interna del conmutador NVIDIA GB200 NVL72

Diagrama esquemático de la solución de conexión de cobre interna del conmutador NVIDIA GB200 NVL72
Fuente: https://www.nvidia.com

Módulo óptico 1.6T Se espera que marque el comienzo de oportunidades de volumen aceleradas impulsadas por las soluciones GB200.

La plataforma Blackwell de nueva generación de NVIDIA impulsará la demanda de módulos ópticos de 1.6T con velocidades de transmisión más altas. Según el rendimiento del nuevo conmutador InfiniBand Quantum-X800 Q3400-RA 4U de NVIDIA, el primer conmutador del mundo con tecnología de un solo canal de 200 Gb/s, que proporciona 144 puertos con velocidades de conexión de 800 GB/s, lo que se logra mediante 72 OSFP de 1.6 T. módulos ópticos. Por lo tanto, se espera que la aplicación gradual de la nueva generación de conmutadores en las soluciones GB200 aumente la demanda de módulos ópticos de 1.6T.

La plataforma Blackwell en escenarios de aplicaciones de clústeres de GPU a gran escala todavía necesita módulos ópticos para realizar la interconexión entre gabinetes y se mantendrá la demanda de módulos ópticos de 800G.

(1) Gabinete único GB200 (correspondiente a 72 GPU): la nueva generación del programa de gabinete único GB200 ya no requerirá módulos ópticos para lograr la interconexión.

(2) Entre 1 y 8 clústeres GB200 NVL72 (correspondientes a 72-576 GPU), todavía se necesitan algunos módulos ópticos de 800G para realizar la interconexión entre gabinetes. Si es necesario transmitir el 20 % de los datos a través de gabinetes, el ancho de banda de transmisión total unidireccional de NVLink de 7200 Gb corresponde a una sola GPU y una relación de demanda de módulo óptico de 800 G de 1:2.

(3) Se espera que más de 8 clústeres GB200 NVL72 de gran escala (correspondientes a más de 576 GPU) configuren la red InfiniBand Layer 3, de acuerdo con la proporción de demanda de GPU y módulos ópticos de 800G de 1:2.5, y la segunda capa 1:2, se espera que la relación de demanda general de GB200 sea 1:4.5.

Deja un comentario

Ir al Inicio