Análisis en profundidad y perfiles de rendimiento del conmutador NV

Sin duda, la tecnología GPU de NVIDIA brilla intensamente en el panorama informático de alto rendimiento actual. Con el rápido desarrollo de la inteligencia artificial y el aprendizaje automático, la demanda de potencia computacional continúa creciendo, lo que hace que la interconectividad entre las GPU sea cada vez más crucial. En este contexto, NVIDIA presentó el protocolo NVLink y la solución de interconexión multi-GPU basada en esta tecnología: NV Switch.

Esta sección profundiza en la historia del desarrollo, los principios de funcionamiento y el papel clave de NV Switch en la construcción de clústeres de servidores de alto rendimiento, revelando los aspectos misteriosos de esta tecnología.

Por qué es necesario el conmutador NV

A medida que las capacidades computacionales de las GPU individuales se acercan a sus límites físicos, el trabajo colaborativo entre múltiples GPU se convierte en una tendencia inevitable.

capacidades computacionales de GPU individuales

Sin embargo, para acceder a la memoria HBM2 de otras GPU es necesario atravesar la interfaz PCIe. Como se muestra en el diagrama anterior, las interfaces PCIe tradicionales tienen limitaciones en las velocidades de transferencia de datos y el ancho de banda, lo que a menudo se convierte en cuellos de botella en el rendimiento de la comunicación GPU. Para superar esta limitación, NVIDIA desarrolló la tecnología NVLink, que proporciona diez veces el ancho de banda de PCIe. Permite que ocho GPU dentro de un solo servidor se conecten a través de redes punto a punto, formando una malla cúbica mixta.

La principal ventaja de NVLink radica en que evita los mecanismos tradicionales de asignación y programación de CPU, lo que permite el intercambio directo de datos entre GPU. Este diseño reduce la latencia de la transferencia de datos y mejora significativamente el rendimiento general del sistema. Además, los GPC NVlink permiten el acceso a datos de memoria HBM2 entre tarjetas y permiten la interacción con datos HBM2 dentro de otras GPU.

En sistemas multi-GPU, NVLINK también sirve como XBAR, actuando como puente entre diferentes GPU, permitiendo que los datos fluyan libremente. Evita hábilmente conflictos con el bus PCIe, lo que permite que NVLink y PCIe coexistan como soluciones complementarias, proporcionando colectivamente las capacidades de transferencia de datos necesarias para el sistema.

NV Switch se basa en esta base y admite sistemas GPU totalmente interconectados y sin bloqueo. Al proporcionar más interfaces NVLink sin saltos de GPU intermedios, permite una interconectividad de GPU a mayor escala, lo que da como resultado clústeres informáticos más potentes.

En la evolución tecnológica de NVIDIA, la arquitectura Pascal introdujo por primera vez NVLink, lo que mejoró significativamente la eficiencia de la comunicación de la GPU al crear un canal de alta velocidad. Sin embargo, el verdadero salto se produjo en la arquitectura Volta de próxima generación, acompañado del nacimiento de NVSwitch.

NVSwitch actúa como un centro inteligente en la red de transmisión de datos, admite enlaces NVLink adicionales y permite una interconectividad total entre múltiples GPU. Optimiza en gran medida la eficiencia y la flexibilidad del intercambio de datos.

interconectividad total entre múltiples GPU

Como se muestra en la figura, la arquitectura Volta logró una comunicación de 300 GB/s entre GPU, mientras que la arquitectura Hopper avanzó aún más hasta 900 GB/s. Detrás de este logro se encuentra el aumento significativo en el número de enlaces NVLink, que se expandió de 6 en Volta a 18 en Hopper. Es similar a agregar pasos elevados y rotondas a la carretera original, lo que permite un flujo de datos más eficiente entre las GPU y proporciona un soporte sólido para la informática de alto rendimiento y el procesamiento paralelo a gran escala.

La arquitectura Volta logró una comunicación de 300G

El diagrama anterior ilustra la arquitectura de las interconexiones de GPU en servidores DGX. En DGX-1 P100, hay 8 tarjetas GPU, cada una de las cuales admite 4 enlaces NVLink que permiten la comunicación de alta velocidad entre GPU. Estas GPU están organizadas en dos mallas cúbicas, y cada cubo contiene 4 GPU (GPU 0~3 y GPU 4~7). Dentro de cada cubo, las GPU pueden comunicarse directamente a través de NVLink o mediante un conmutador PCIe. Sin embargo, la comunicación entre cubos (por ejemplo, entre GPU 0 y GPU 4) requiere enrutamiento indirecto a través de otras GPU.

DGX-2 introdujo la tecnología NVSwitch de primera generación de NVIDIA, un avance significativo que permite una comunicación más eficiente entre GPU. En la arquitectura Volta, cada tarjeta GPU admite 6 enlaces NVLink (en lugar de 4). Además, al incorporar 6 NVSwitches, DGX-2 interconecta todas las GPU del servidor, permitiendo la comunicación simultánea entre 8 pares de GPU sin saltos intermedios. Esta comunicación directa de alta velocidad mejora enormemente la eficiencia de la transferencia de datos y el rendimiento computacional general.

DGX-A100 utiliza tecnología NVSwitch de segunda generación. En comparación con la primera generación, el NVSwitch de segunda generación proporciona un mayor ancho de banda de comunicación y una menor latencia. En la arquitectura A100, cada tarjeta GPU admite 12 enlaces NVLink (tercera generación) y 6 NVSwitches crean una topología de red completamente conectada. Aunque la configuración estándar del DGX A100 incluye solo 8 tarjetas GPU, el sistema se puede ampliar para admitir más GPU A100 y NVSwitches para supercomputación a mayor escala.

DGX-H100 emplea tecnologías NVSwitch de tercera generación y NVLink de cuarta generación. Cada tarjeta GPU admite 18 enlaces NVLink. En la arquitectura H100, se introducen 4 NVSwitch, utilizando una topología en capas: cada tarjeta se conecta al primer NVSwitch con 5 enlaces, al segundo NVSwitch con 4 enlaces, al tercer NVSwitch con 4 enlaces y al cuarto NVSwitch con 5 enlaces. Esto da como resultado un total de 72 NVLink que proporcionan un ancho de banda de red NVLink bidireccional de 3.6 TB/s, una mejora de 1.5 veces con respecto a la generación anterior.

El diseño original de NVSwitch tenía como objetivo crear un sistema GPU totalmente interconectado y desbloqueado para el procesamiento paralelo a gran escala. En la primera generación, NVSwitch admitía 18 interfaces, lo que permitía interconectar completamente hasta 16 GPU para compartir datos y comunicarse de manera eficiente.

Como se muestra en el diagrama de arquitectura V100, cada GPU tiene 6 canales NVLink que se conectan a NVSwitch, formando una red de comunicación de gran ancho de banda. En el sistema DGX-2, 8 GPU V100 están conectadas a 6 NVSwitches a través de estos canales NVLink, creando una potente columna vertebral.

GPU V100

Como se muestra en el diagrama anterior, en la arquitectura V100, cada GPU tiene 6 canales NVLink que pueden conectarse a NVSwitch, formando una red de comunicación de gran ancho de banda. En el sistema DGX-2, 8 GPU V100 están conectadas a 6 NVSwitches a través de estos canales NVLink, creando una potente columna vertebral.

NVLink

El NVSwitch de primera generación admite la tecnología NVLink 2.0, y cada interfaz proporciona canales duales y hasta 50 GB/s de ancho de banda. Esto significa que a través de NVSwitch, todo el sistema logra un impresionante ancho de banda total de 900 GB/s, mejorando significativamente las tasas de transferencia de datos y la eficiencia computacional.

Además, NVSwitch se fabrica utilizando el proceso FinFET FFN de 12 nm de TSMC, lo que le permite funcionar a 100 W de potencia e integra hasta 200 millones de transistores.

En cuanto al empaquetado y E/S del circuito, NVSwitch está empaquetado en un chip BGA grande con 1940 pines, de los cuales 576 están dedicados específicamente a soportar 18 enlaces NVLink. Los pines restantes manejan la alimentación y varias interfaces de E/S, incluidos puertos de administración PCIe x4, I2C, GPIO, lo que proporciona capacidades flexibles de administración y expansión para el sistema.

Los parámetros específicos se muestran en la siguiente tabla:

parámetro nvSwitch

NVLink bidireccional BW Hasta 50 GB/s

Utilización real Hasta 80%

Bloque de interruptores NV

Bloque de interruptores NV

El bloque NVSwitch inicial, como se muestra, incluye la GPU XBAR a la izquierda. Es un dispositivo puente altamente especializado diseñado para entornos de interconexión NVLink, que permite que los paquetes de datos fluyan e intercambien entre múltiples GPU mientras se presentan externamente como una sola GPU. A través de GPU XBAR, las aplicaciones cliente pueden aprovechar el rendimiento colectivo de múltiples GPU, lo que reduce la complejidad de administrar la comunicación de GPU a GPU en el lado del cliente.

Además, GPU XBAR utiliza tecnología de búfer basada en memoria estática de acceso aleatorio (SRAM) para lograr una transferencia de datos sin bloqueo. Este mecanismo de amortiguación garantiza continuidad y eficiencia incluso bajo cargas elevadas.

A partir de la GPU V100, NVIDIA reutilizó los bloques IP NVLink y el diseño XBAR, lo que garantiza la compatibilidad entre diferentes generaciones de productos y permite la iteración y optimización continua de la tecnología NVLink al tiempo que reduce los costos y el tiempo de desarrollo.

direccionamiento físico del nvswitch

El diagrama también ilustra cómo NVSwitch y las GPU distribuyen y transfieren datos en toda la GPU. En programación, los desarrolladores suelen trabajar con direcciones virtuales administradas y abstraídas por el sistema operativo, proporcionando espacios de direcciones independientes para diferentes programas. Sin embargo, los datos se almacenan físicamente utilizando direcciones físicas en la memoria. Estas direcciones físicas apuntan directamente a ubicaciones específicas en la memoria, formando la base para el acceso a los datos. Al transmitir datos a través de NVLink, como se muestra en el diagrama, se utilizan direcciones físicas en lugar de direcciones virtuales. Esta elección acelera la indexación de datos y la velocidad de acceso.

NVSwitch, como dispositivo puente para NVLink, no solo proporciona una ruta de comunicación de gran ancho de banda, sino que también gestiona complejos mecanismos de enrutamiento y almacenamiento en búfer para garantizar que los paquetes de datos se transmitan de forma precisa y rápida a su destino en función de la dirección física correcta. El uso de direcciones físicas para la comunicación NVLink reduce la necesidad de traducción de direcciones en la GPU de destino, lo que reduce la latencia y mejora las tasas de transferencia de datos. Esto es crucial para las aplicaciones informáticas y de inteligencia artificial de alto rendimiento que requieren un procesamiento rápido de grandes cantidades de datos.

NVSwitch: principios y características de simplificación

banda

En configuraciones sin NVSwitch, las conexiones directas de GPU a GPU generalmente implican agregar NVLinks en múltiples grupos (denominados "Grupos"). En esta configuración, varias GPU se comunican a través de enlaces NVLink compartidos. Sin embargo, una limitación de este enfoque es que el ancho de banda máximo entre dos GPU cualesquiera está limitado por la cantidad de NVLink y el ancho de banda dentro de sus respectivos grupos.

V100

La introducción de NVSwitch y sus mejoras La tecnología NVSwitch de NVIDIA revoluciona la comunicación entre GPU. Como conmutador de alta velocidad, NVSwitch permite la interacción de datos en todos los enlaces.

En la arquitectura NVSwitch, cualquier par de GPU se puede interconectar directamente y, siempre que no se exceda el ancho de banda total de seis NVLink, el tráfico de GPU individual logra una transmisión sin bloqueo. Esto significa que la arquitectura totalmente interconectada compatible con NVSwitch permite una fácil escalabilidad del sistema para acomodar más GPU sin sacrificar el rendimiento. Cada GPU puede aprovechar el gran ancho de banda proporcionado por NVLink para un rápido intercambio de datos.

Ventajas y características de NVSwitch en interconexión multi-GPU:

Escalabilidad y capacidad de expansión: La introducción de NVSwitch mejora significativamente la escalabilidad de los clústeres de GPU. Simplemente agregando más NVSwitches, el sistema puede admitir GPU adicionales sin problemas, ampliando la capacidad computacional.

Construcción de sistemas eficientes: Por ejemplo, se pueden interconectar de manera eficiente ocho GPU mediante tres NVSwitches. Este diseño permite que los datos fluyan libremente a través de todos los enlaces de GPU, maximizando la flexibilidad y eficiencia en la circulación de datos.

Utilización de ancho de banda bidireccional: En esta configuración, cualquier par de GPU puede utilizar el ancho de banda bidireccional completo de 300 GBps para la comunicación. Cada GPU logra una transferencia de datos de alta velocidad y baja latencia, lo que mejora enormemente la velocidad de procesamiento de tareas computacionales.

Comunicación sin bloqueo: El conmutador de barra transversal (XBAR) dentro de NVSwitch proporciona una ruta única desde el punto A al punto B para la transmisión de datos. Este diseño garantiza una comunicación sin bloqueos y sin interferencias, lo que mejora aún más la confiabilidad de la transferencia de datos y el rendimiento general del sistema.

Topología de red optimizada: NVSwitch admite estructuras de topología de red que ofrecen soluciones optimizadas para crear clústeres de GPU a gran escala. Los diseñadores de sistemas pueden configurar de manera flexible las conexiones de GPU a GPU en función de los requisitos computacionales específicos.

NVSwitch de tercera generación

NVSwitch de tercera generación

Como se muestra en el diagrama, el NVSwitch de tercera generación se fabrica mediante el proceso 4N de TSMC. A pesar de tener una gran cantidad de transistores y un gran ancho de banda, mantiene un consumo de energía relativamente bajo. Proporciona 64 puertos de enlace NVLink 4, lo que permite la construcción de redes complejas que contienen numerosas GPU y al mismo tiempo mantiene una comunicación de alta velocidad entre cada GPU. Además, admite un ancho de banda bidireccional de 3.2 TB/s, lo que mejora significativamente las tasas de transferencia de datos y hace que el procesamiento paralelo a gran escala de conjuntos de datos sea más eficiente.

Más allá de conectar múltiples tarjetas GPU dentro de un servidor, el NVSwitch de tercera generación también puede extenderse para conectar servidores GPU externamente, formando clústeres GPU completos de alta velocidad. Un conmutador físico compuesto por chips NVSwitch de tercera generación puede crear clústeres con hasta 256 GPU H100, proporcionando un ancho de banda total de 57.6 TB/s.

En cuanto a la tecnología de señal, adopta señalización PAM50 de 4 Gbaud, proporcionando cada par diferencial un ancho de banda de 100 Gbps, manteniendo una transmisión de alta velocidad y baja latencia.

NVSwitch integra la tecnología NVIDIA SHARP, que incluye operaciones como all_gather, reduce_scatter y broadcast atomics, lo que acelera la comunicación del clúster y mejora aún más el rendimiento. La interfaz eléctrica física de NVSwitch 3.0 es compatible con Ethernet de 400 Gbps e InfiniBand, lo que garantiza la interoperabilidad con las tecnologías de red existentes.

lógica de puerto

El NVSwitch de tercera generación de NVIDIA presenta varias características innovadoras. La inclusión del nuevo módulo SHARP y el módulo NVLink mejora significativamente la comunicación eficiente y el procesamiento de datos entre GPU, como se muestra en el diagrama.

Nuevo módulo SHARP

El módulo SHARP recientemente introducido actúa como un conductor inteligente, liderando una sinfonía de datos con sus poderosas capacidades de procesamiento. Admite varios operadores, desde operaciones lógicas hasta aritméticas, y es compatible con múltiples formatos de datos, como FP16 y BF16, lo que brinda un soporte sólido para cargas de trabajo de inteligencia artificial y aprendizaje automático. El diseño del controlador SHARP permite la gestión paralela de hasta 128 grupos SHARP, similar a una deidad multitarea con mil brazos, lo que mejora en gran medida la eficiencia del procesamiento paralelo de datos.

El interruptor de barra transversal (XBAR) dentro de NVSwitch, meticulosamente ajustado y optimizado, se adapta perfectamente a los requisitos de transferencia de datos del módulo SHARP. Este diseño colaborativo garantiza una transmisión de datos eficiente y de baja latencia entre GPU, impulsando el rendimiento general del sistema como un corcel al galope.

Nuevo módulo NVLink

El nuevo módulo NVLink integrado no sólo proporciona protección de seguridad adicional para datos y chips, actuando como un escudo sólido contra el acceso no autorizado y posibles fugas de datos, sino que también mejora la seguridad de los datos. La introducción de la partición de puertos, como un movimiento de ajedrez estratégico, aísla diferentes puertos en redes NVLink separadas, lo que proporciona una mayor flexibilidad para la partición de recursos lógicos entre diferentes redes y optimiza las capacidades multitarea.

La compatibilidad con los cables OSFP (Octal Small Formfactor Pluggable) de próxima generación garantiza una base sólida para la expansión futura de la red. Estos cables ofrecen mayores velocidades de transferencia de datos y menor atenuación de la señal, lo que los hace adecuados para comunicaciones de alta velocidad a larga distancia y permite posibilidades ilimitadas de escalabilidad de la red.

El nuevo módulo NVLink también amplía las capacidades de telemetría, permitiendo a los administradores del sistema monitorear y optimizar con precisión el rendimiento de la red, asegurando un funcionamiento estable del sistema. La tecnología integrada de corrección de errores directos (FEC) actúa como un guardián vigilante, mejorando la confiabilidad de la transmisión de datos, especialmente ante la atenuación o interferencia de la señal, garantizando la integridad y precisión de los datos.

Cuando las GPU H100 utilizan redes NVLink, ¿cuánto más rápidas son en comparación con las GPU A100 con redes IB? Comparemos el ancho de banda entre DGX A100 256 POD y DGX H100 256 POD:

Comparación de las redes InfiniBand (IB) y NVLink para GPU H100

Ancho de banda interno DGX A100:

Cada DGX A100: 8/2 * 600 GB/s = 2400 GB/s

En 32 DGX A100 (256 GPU A100), suponiendo 8 NIC HDR de 200 Gbps por servidor y una relación de convergencia de conmutador TOR de 4:1:

Ancho de banda total = 256/2/4 * 200 GB/s = 6400 GB/s

Ancho de banda interno DGX H100:

Cada DGX H100: 8/2 * 900 GB/s = 3600 GB/s

En 32 DGX H100 (256 GPU H100), con una relación de convergencia de 2:1:

Ancho de banda total = 256/2/2 * 900 GB/s = 57600 GB/s

En comparación con el DGX A100, un solo DGX H100 proporciona un aumento de 1.5 veces en el ancho de banda y un aumento de 3 veces en el ancho de banda bidireccional. Con 32 DGX H100, el ancho de banda por carril se puede mejorar 9 veces y el ancho de banda bidireccional se puede mejorar 4.5 veces.

motor de recomendación neuronal

Resumen

En la era actual impulsada por los datos, la demanda de informática de alto rendimiento continúa traspasando los límites tecnológicos. La tecnología NVSwitch de NVIDIA, que actúa como puente de comunicación entre las GPU, desempeña un papel fundamental en la creación de clústeres informáticos eficientes. Desde el inicio del primer NVSwitch hasta las innovaciones de la tercera generación, la búsqueda incesante de NVIDIA de la eficiencia computacional es evidente. NVSwitch no sólo mejora el ancho de banda y la velocidad de transferencia de datos, sino que también fortalece las capacidades de procesamiento de datos y la seguridad del sistema a través de los módulos SHARP y NVLink. Su presencia permite que los sistemas multi-GPU colaboren de manera más eficiente, brindando un soporte sólido para campos como la inteligencia artificial, el aprendizaje automático y el análisis de big data. A medida que avanza la tecnología, NVSwitch seguirá siendo fundamental en el panorama informático de alto rendimiento, simbolizando la innovación de NVIDIA e impulsando el progreso de la industria. Guiados por NVSwitch, anticipamos un futuro más inteligente, más eficiente e interconectado.

Deja Tu Comentario

Ir al Inicio