Servidores NVIDIA AI GPU: PCIe frente a SXM

Enero 26, 2024

Ricky

Investigador de Transmisión Óptica, rica experiencia en diseño de soluciones.

La tecnología de interconexión de GPU de Nvidia tiene dos tipos principales de ranuras de memoria: PCIe y SXM. Estas dos interfaces tienen diferentes funciones y rendimiento.

La interfaz PCIe es un protocolo general ampliamente utilizado. Aunque tiene funciones completas, tiene una velocidad de transmisión relativamente lenta para la interconexión de GPU. Sin embargo, las tarjetas GPU con interfaz PCIe aún pueden comunicarse con la CPU y otras tarjetas GPU en el servidor a través de ranuras PCIe. Además, también pueden intercambiar datos con dispositivos en nodos de servidores externos a través de tarjetas de red. Si los usuarios desean mejorar la velocidad de transmisión de las tarjetas PCIe GPU, pueden utilizar el puente NVLink para lograr una comunicación rápida entre la GPU y la CPU. Sin embargo, cabe señalar que este método normalmente sólo admite la conexión entre dos tarjetas GPU. Es decir, las tarjetas PCIe GPU generalmente deben aparecer en pares, conectadas mediante NVLink Bridge y transmitir datos a través del canal PCIe. Vale la pena señalar que el último estándar PCIe tiene un límite de 128 GB/s en el ancho de banda de la red.

Por el contrario, la interfaz SXM está diseñada específicamente para alto rendimiento. Interconexión de GPUUtiliza un protocolo dedicado dispuesto en la placa de circuitos, lo que permite a SXM ofrecer una mayor velocidad de transmisión y un mejor soporte nativo de NVLink que PCIe en términos de conexión entre tarjetas. Su ancho de banda de memoria también es superior a PCIe. La arquitectura SXM es especialmente adecuada para conectar GPU a los sistemas DGX y HGX propietarios de NVIDIA. En estos sistemas, las GPU basadas en SXM se conectan a través de NVSwitch integrado en la placa base, sin depender de PCIe para la comunicación. Este diseño permite a SXM soportar hasta 8 GPU interconectadas, logrando un ancho de banda muy alto. Por ejemplo, las A100 y H100 sin cortes pueden alcanzar 600 GB/s y 900 GB/s de ancho de banda respectivamente, mientras que las A800 y H800 ligeramente recortadas pueden alcanzar 400 GB/s de ancho de banda.

En general, los usuarios deben sopesar los pros y los contras de las GPU basadas en PCIe o SXM según sus escenarios de aplicación específicos y requisitos de rendimiento.

Índice del Contenido

Introducción a PCIe (PCI Express)

PCIe, abreviatura de PCI Express, es un estándar avanzado de bus de expansión informática, cuyo objetivo principal es mejorar el rendimiento de datos y la velocidad de comunicación entre dispositivos. Como bus de conexión full-duplex, la velocidad de transferencia de datos de PCIe depende de su número de carriles. Cada carril consta de dos pares de líneas de datos (una para enviar y otra para recibir) y cada par de líneas de datos contiene dos líneas diferenciales. Por ejemplo, X1 significa un carril y cuatro líneas de datos, que pueden transferir datos de 1 bit por dirección por ciclo de reloj; mientras que X2 significa dos carriles y ocho líneas de datos, que pueden transferir datos de 2 bits por ciclo. Del mismo modo, también existen X12, X16, X32 y otras configuraciones.

Desde el lanzamiento de PCIe 1.0 en 2003, su velocidad de transmisión ha aumentado constantemente. PCIe 1.0 admite una velocidad de transmisión de 250 MB/s por canal, con una velocidad de transmisión total de 2.5 GT/s. En 2007, la especificación PCIe 2.0 duplicó la velocidad de transmisión total a 5 GT/s, y la velocidad de transmisión por canal también aumentó a 500 MB/s. Para 2022, la especificación PCIe 6.0 aumentó aún más la velocidad de transmisión total a 64 GT/s. En junio del mismo año, la alianza PCI-SIG anunció la especificación PCIe 7.0, que se espera que alcance una velocidad de transmisión unidireccional de un solo canal (x1) de 128 GT/s en la versión final que se lanzará en 2025.

Cálculo del rendimiento de PCIe

Al calcular el rendimiento de PCIe (o ancho de banda disponible), se deben considerar dos factores: la velocidad de transmisión y el esquema de codificación. La velocidad de transmisión generalmente se expresa en GT/s (Giga Transiciones por segundo), que describe el atributo de velocidad del protocolo de comunicación de la capa física, en lugar del número de bits transmitidos por segundo (Gbps). Esto se debe a que la velocidad de transmisión incluye bits adicionales que no proporcionan un rendimiento adicional. Por ejemplo, PCIe 1.x y PCIe 2.x utilizan el esquema de codificación 8b/10b, lo que significa que el 20 % del ancho de banda del canal original se utiliza para gastos generales.

Por lo tanto, aunque el protocolo PCIe 2.0 admite una velocidad de transmisión de 5.0 GT/s, debido al uso de la solución de codificación 8b/10b, la velocidad efectiva real de cada carril es 5*8/10=4 Gbps, o 500 MB/s. s. De manera similar, el protocolo PCIe 3.0 admite una velocidad de transmisión de 8.0 GT/s, pero después de usar el esquema de codificación 128b/130b, la velocidad efectiva real de cada carril es de aproximadamente 7.877 Gbps, o 984.6 MB/s.

La arquitectura PCIe consta de dispositivos PCIe de diferentes tipos, como Root Complex (RC), Switch y Endpoint (EP). Entre ellos, RC es el único en la arquitectura de bus, responsable de conectar los subsistemas de procesador y memoria con los dispositivos de E/S. La función del conmutador generalmente se implementa mediante software, que contiene dos o más puentes lógicos PCI a PCI (puente PCI-PCI) para garantizar la compatibilidad con los dispositivos PCI existentes. Esta arquitectura proporciona un fuerte soporte para la informática y las comunicaciones de alto rendimiento.

NVLink: una tecnología de interconexión de alta velocidad para acelerar la comunicación GPU

A medida que la potencia informática sigue aumentando, las tarjetas multiGPU se convierten en la clave para mejorar el rendimiento. Sin embargo, el bus PCIe tradicional tiende a ser un cuello de botella en la velocidad de transferencia de datos y la latencia, lo que limita la eficiencia y el rendimiento de la computación paralela de GPU.

Para solucionar este problema, NVIDIA introdujo la tecnología GPUDirect P2P, que permite a las GPU acceder directamente a la memoria de otras GPU a través de PCI Express, reduciendo la latencia del intercambio de datos. Pero aun así, debido al protocolo del bus PCI Express y a las limitaciones de la topología, todavía no puede cumplir con los requisitos de ancho de banda más altos. Por este motivo, NVIDIA lanzó aún más la tecnología de interconexión de alta velocidad NVLink. NVLink tiene como objetivo acelerar la transferencia de datos entre CPU y GPU, y GPU y GPU, proporcionando una solución de interconexión más eficiente y de baja latencia. Desde su primer lanzamiento en 2014, NVLink se ha actualizado continuamente y el ancho de banda ha ido aumentando. Desde los 100 GB/s del P160 hasta los 100 GB/s del V300, y luego hasta los 100 GB/s del A600, el ancho de banda de NVLink ha ido aumentando, proporcionando un fuerte soporte para la informática de alto rendimiento.

La interconexión de alta velocidad NVLink tiene dos métodos de implementación principales: uno es a través de un puente y el otro es integrar la interfaz NVLink en la placa base. Ambos métodos pueden lograr una interconexión de alta velocidad entre GPU y mejorar el rendimiento del sistema.

NVSwitch: comunicación multi-GPU fluida y de gran ancho de banda

Para resolver el problema de la comunicación desequilibrada entre las GPU, NVIDIA introdujo el chip NVSwitch. NVSwitch es un chip físico (ASIC) similar a un conmutador, que puede conectar múltiples GPU a alta velocidad a través de la interfaz NVLink. Puede crear un clúster de GPU multinodo de alto ancho de banda sin interrupciones, lo que permite que todas las GPU trabajen juntas en un clúster con conectividad de ancho de banda completo, mejorando así la eficiencia de la comunicación y el ancho de banda entre múltiples GPU dentro del servidor.

La combinación de NVLink y NVSwitch permite a NVIDIA escalar de manera eficiente el rendimiento de la IA a múltiples GPU, brindando un soporte poderoso para aplicaciones de inteligencia artificial y computación de alto rendimiento. Desde el lanzamiento de la primera generación de NVSwitch en 2018, NVSwitch ha evolucionado hasta la tercera generación. La tercera generación de NVSwitch está construida con el proceso 4N de TSMC y cada chip tiene 64 puertos NVLink 4.0, con una velocidad de comunicación de hasta 900 GB/s entre GPU. Esta tecnología innovadora proporciona un espacio de desarrollo más amplio para futuras aplicaciones de inteligencia artificial y computación de alto rendimiento.