Red IB y productos Mellanox

¿Qué es IB-InfiniBand?

IB, la abreviatura de InfiniBand (traducido como " Ancho de banda infinito ”), es un estándar de comunicación de redes informáticas para computación de alto rendimiento. La tecnología IB, caracterizada por un rendimiento extremadamente alto y una latencia extremadamente baja, se utiliza para la interconexión de datos entre computadoras. InfiniBand también se utiliza como interconexión directa o conmutada entre servidores y sistemas de almacenamiento, y como interconexión entre sistemas de almacenamiento. Con el auge de la IA, IB también se ha vuelto popular y actualmente es el método de red preferido para clústeres de servidores GPU de alta gama.

Aquí está el historial de desarrollo de InfiniBand:

  • 1999: La InfiniBand Trade Association (IBTA) lanzó la arquitectura InfiniBand, que originalmente estaba destinada a reemplazar el bus PCI.
  • En el año 2000 se publicó oficialmente la versión 1.0 de la especificación de la arquitectura InfiniBand. Luego, en 2001, salió al mercado el primer lote de productos InfiniBand y muchos fabricantes comenzaron a lanzar productos compatibles con InfiniBand, incluidos servidores, sistemas de almacenamiento y equipos de red.
  • En 2003, gracias a su alto rendimiento y baja latencia, InfiniBand se dirigió a una nueva área de aplicación: la interconexión de clústeres de computadoras HPC, y fue ampliamente utilizado en las supercomputadoras TOP500 de ese momento.
  • En 2004, nació otra importante organización sin fines de lucro de InfiniBand: Open Fabrics Alliance (OFA).
  • En 2005, InfiniBand encontró un nuevo escenario: la conexión de dispositivos de almacenamiento, y desde entonces se ha actualizado y mejorado continuamente.
  • En 2015, la tecnología InfiniBand representó por primera vez más del 50% de las supercomputadoras TOP500, alcanzando el 51.4%. Esto marca la primera vez que la tecnología InfiniBand supera a la tecnología Ethernet y se convierte en la tecnología de conexión interna más popular en las supercomputadoras.
  • Desde 2023, el entrenamiento de modelos grandes de IA depende en gran medida de clústeres de computación de alto rendimiento, y las redes InfiniBand son el mejor socio para los clústeres de computación de alto rendimiento.

Principales ventajas de Mellanox y de IB Network

Relación entre Mellanox e InfiniBand

En la actualidad, cuando la gente menciona IB, lo primero que viene a la mente es Mellanox. En 2019, NVIDIA gastó 6.9 millones de dólares en adquirir Mellanox como su submarca. Jensen Huang dijo públicamente: Esta es una combinación de dos de las empresas líderes en computación de alto rendimiento del mundo. NVIDIA se centra en la computación acelerada y Mellanox se centra en la interconexión y el almacenamiento.

Según las previsiones de las organizaciones del sector, el tamaño del mercado de InfiniBand alcanzará los 98.37 millones de dólares en 2029, un aumento de 14.7 veces respecto de los 6.66 millones de dólares de 2021. Impulsada por la informática de alto rendimiento y la IA, InfiniBand tiene un futuro brillante.

 Arquitectura y características de la red InfiniBand

Un sistema InfiniBand consta de adaptadores de canal, conmutadores, enrutadores, cables y conectores, como se muestra en la siguiente figura.

Sistema InfiniBand

Sistema InfiniBand

Las características principales se resumen a continuación:

  • Baja latencia: latencia extremadamente baja y soporte nativo para RDMA
  • Alto ancho de banda: capacidad de transmisión de datos de 400 Gb/s por puerto
  • Facilidad de uso: adecuado para construir clústeres de centros de datos a gran escala

Red IB y RDMA

Cuando hablamos de la red IB, tenemos que mencionar RDMA. RDMA (Remote Direct Memory Access) fue creado para resolver el retraso del procesamiento de datos del lado del servidor en la transmisión de la red. Puede acceder directamente a la memoria de otro host o servidor desde la memoria de un host o servidor sin usar la CPU. Libera la CPU para realizar su trabajo. Infiniband es una tecnología de red diseñada específicamente para RDMA, y la red IB admite RDMA de forma nativa.

La razón por la que la tecnología RDMA es tan poderosa es su mecanismo de bypass de kernel, que permite la lectura y escritura directa de datos entre aplicaciones y tarjetas de red, reduciendo la latencia de transmisión de datos dentro del servidor a casi 1us. Roce trasplanta RDMA a Ethernet.

Comparación de dos soluciones RDMA convencionales (IB y ROCEV2)

  • En comparación con los centros de datos tradicionales, los requisitos de la red de comunicación del nuevo centro de computación inteligente son más altos, como baja latencia, gran ancho de banda, estabilidad y gran escala.
  • Tanto InfiniBand como ROCEV2 basados ​​en RDMA pueden satisfacer las necesidades de las redes de comunicación de los centros de computación inteligentes.
  • InfiniBand tiene actualmente más ventajas en rendimiento que ROCEV2, mientras que ROCEV2 tiene actualmente ventajas sobre InfiniBand en términos de economía y versatilidad.

Si tomamos como ejemplo la especificación SDR (velocidad de datos única) inicial, el ancho de banda de señal original de un enlace 1X es de 2.5 Gbps, el de un enlace 4X es de 10 Gbps y el de un enlace 12X es de 30 Gbps. El ancho de banda de datos real de un enlace 1X es de 2.0 Gbps (debido a la codificación 8b/10b). Dado que el enlace es bidireccional, el ancho de banda total relativo al bus es de 4 Gbps. Con el tiempo, el ancho de banda de red de InfiniBand continúa mejorando.

¿Qué significan las DR en HDR y NDR? Cada DR representa la abreviatura de cada generación de tecnología IB. DR es un término general para la velocidad de datos, siendo 4 canales la norma principal.

La siguiente figura muestra el ancho de banda de red de InfiniBand desde SDR, DDR, QDR, FDR, EDR hasta HDR y NDR. La velocidad se basa en una velocidad de enlace de 4x. Actualmente, EDR, HDR y NDR son los estándares principales, correspondientes a las plataformas de servidor PICE 3.0, 4.0 y 5.0.

Productos de consumo masivo NVIDIA InfiniBand: la situación actual de las tarjetas de red NDR

La tarjeta ConnectX-7 IB Card (HCA) tiene una variedad de formatos, incluidos puertos simples y dobles, compatibilidad con interfaces OSFP y QSFP112 y compatibilidad con velocidades de 200 Gbps y 400 Gbps. La tarjeta de red CX-7 admite PCle16 o PCle 5.0 x4.0, que cumple con las especificaciones CEM. Se pueden conectar hasta 16 carriles con compatibilidad con una tarjeta auxiliar opcional que permite 32 carriles de PCIe 4.0 mediante la tecnología NVIDIA Socket Direct®.

Otros factores de forma incluyen Open Compute Project (OCP) 3.0 con un conector OSFP, OCP 3.0 con un conector QSFP112 y CEM PCle x16 con un conector QSFP112.

El último cambio NDR de Mellanox

Los conmutadores IB de Mellanox se dividen en dos tipos: conmutadores de configuración fija y conmutadores modulares. Se entiende que los conmutadores de la última serie NDR ya no se venden como conmutadores de configuración modular (aunque el sitio web oficial muestra que están disponibles, ya no están a la venta).

La serie de conmutadores de configuración fija MQM9700 de NDR está equipada con 32 conectores OSFP físicos y admite 64 puertos de 400 Gb/s (que se pueden dividir en hasta 128 puertos de 200 Gb/s). La serie de conmutadores proporciona un total de 51.2 Tb/s de rendimiento bidireccional (ancho de banda de la placa base) y una asombrosa cantidad de 66.5 XNUMX millones de paquetes por segundo (velocidad de reenvío de paquetes).

La cantidad de interfaces y velocidades de los submodelos son las mismas, y las diferencias radican en si se admite la función de gestión, en el método de suministro de energía y en el método de disipación de calor. Por lo general, un solo interruptor con funciones de gestión es suficiente.

Los últimos cables y módulos de interconexión de Mellanox

Los cables y transceptores LinkX de Mellanox se utilizan normalmente para conectar conmutadores ToR hacia abajo con tarjetas de red de servidores de CPU y GPU NVIDIA y dispositivos de almacenamiento, y/o hacia arriba en aplicaciones de interconexión de conmutador a conmutador en toda la infraestructura de red.

Cable óptico activo (AOC), cable de cobre de conexión directa (DAC) y el nuevo DAC activo llamado ACC, que incluyen un circuito integrado (IC) de mejora de señal en el extremo del cable.

Los últimos cables y módulos de interconexión de Mellanox

Los conmutadores a conmutadores y los conmutadores a tarjetas de red se pueden interconectar a través de diferentes cables, y el conmutador a la tarjeta de red puede lograr una interconexión de 1 a 2 o de 4 a 1.

Topología NIC Mellanox en H100

  • El módulo HGX está conectado lógicamente al cabezal a través de 4 u 8 chips PCIE SW dentro de la máquina H100.
  • Cada sw PCIE corresponde a dos tarjetas GPU y dos tarjetas de red, y las ocho tarjetas IB 400G están diseñadas para corresponder uno a uno con las ocho tarjetas H100.
  • Si está completamente equipado con ocho tarjetas IB de 400G, requerirá otras conexiones PCIE SW desde la CPU para agregar otras tarjetas de red.

Topología NIC Mellanox en H100

Deja Tu Comentario

Ir al Inicio