¿Qué es InfiniBand Network y la diferencia con Ethernet?

¿Qué es la Red InfiniBand?

La arquitectura InfiniBand lleva la consolidación de estructuras al centro de datos Las redes de almacenamiento se pueden ejecutar simultáneamente con estructuras de administración, comunicación y agrupación en clústeres sobre la misma infraestructura, preservando el comportamiento de varias estructuras.

InfiniBand es una tecnología de interconexión de red de estándar abierto con alto ancho de banda, bajo retardo y alta confiabilidad. Esta tecnología está definida por IBTA (alianza comercial InfiniBand). Esta tecnología se utiliza ampliamente en el campo del clúster de supercomputadoras. Al mismo tiempo, con el auge de la inteligencia artificial, también es la tecnología de interconexión de red preferida para el servidor GPU.

La interconexión de alta velocidad (HSI) se ha convertido en la clave para el desarrollo de computadoras de alto rendimiento a medida que la potencia informática de la unidad central de procesamiento (CPU) aumenta a un ritmo muy rápido. HSI es una nueva tecnología propuesta para mejorar el rendimiento de la interfaz de componentes periféricos (PCI). Después de años de desarrollo, los HSI que admiten computación de alto rendimiento (HPC) ahora son principalmente Gigabit Ethernet e InfiniBand, de los cuales InfiniBand es el HSI de más rápido crecimiento. InfiniBand es una tecnología de alto rendimiento y baja latencia desarrollada bajo la supervisión de InfiniBand Trade Association (IBTA).

IBTA se fundó en 1999 como una fusión de dos organizaciones industriales, Future I/O Developers Forum y NGI/O Forum. Funciona bajo el liderazgo de un comité de planificación y operación compuesto por HP, IBM, Intel, Mellanox, Oracle, QLogic, Dell, Bull y otros. IBTA se especializa en pruebas de compatibilidad e interoperabilidad de productos, y sus miembros han estado trabajando para avanzar en el establecimiento y actualización de la especificación InfiniBand.

El estándar InfiniBand admite la señalización de velocidad de datos única (SDR) a una velocidad básica de 2.5 Gbits / seg por carril para permitir una velocidad de datos sin procesar de 10 Gbits / seg a través de cables 4X (el tipo de cable InfiniBand más común utilizado). La señalización de velocidad de datos doble (DDR) y velocidad de datos cuádruple (QDR) permite escalar carriles individuales hasta 5 Gbits / seg y 10 Gbits / seg por línea, respectivamente, para una velocidad de datos máxima potencial de 40 Gbits / seg sobre 4X y 120 Gbits / seg. sobre cables 12X.

Comparación de tecnologías de redes

Comparación de tecnologías de redes

En la actualidad, el último producto InfiniBand es el HDR producido por Mellanox, que puede proporcionar un ancho de banda de extremo a extremo de hasta 200 gbps para la red, brindar una experiencia de red sin igual para computación de alto rendimiento, inteligencia artificial y otros campos, y maximizar el potencial informático en el clúster.

Como tecnología de interconexión de clústeres de computadoras, InfiniBand tiene ventajas significativas sobre Ethernet/Fibre Channel y la obsoleta tecnología Omni-Path, y es la principal tecnología de comunicación de red recomendada por InfiniBand Trade Association (IBTA). Desde 2014, la mayoría de las supercomputadoras TOP500 han adoptado la tecnología de redes InfiniBand. En los últimos años, las aplicaciones relacionadas con IA/Big Data también han adoptado redes IB a gran escala para lograr implementaciones de clústeres de alto rendimiento, con el 62 % de los centros de supercomputación Top100 utilizando tecnología InfiniBand (datos de junio de 2022).

top100 banda infinita

Descripción general de InfiniBand

InfiniBand es un enlace de comunicación para el flujo de datos entre procesadores y dispositivos de E/S, que admite hasta 64,000 dispositivos direccionables. Arquitectura InfiniBand (IBA) es una especificación estándar de la industria que define un marco de entrada/salida conmutada punto a punto para interconectar servidores, infraestructura de comunicaciones, dispositivos de almacenamiento y sistemas integrados.

InfiniBand es ideal para conectar múltiples flujos de datos (agrupación, comunicación, almacenamiento, administración) en una sola conexión, con miles de nodos interconectados, debido a su baja latencia generalizada, alto ancho de banda y bajo costo de administración. La unidad IBA completa más pequeña es una subred, y los enrutadores conectan varias subredes para formar una gran red IBA.

Los sistemas InfiniBand constan de adaptadores de canal, conmutadores, enrutadores, cables y conectores. La CA se divide en un adaptador de canal de host (HCA) y un adaptador de canal de destino (TCA). Los conmutadores IBA son similares en principio a otros conmutadores de red estándar, pero deben cumplir con los requisitos de alto rendimiento y bajo costo de InfiniBand. Un HCA es un punto de dispositivo a través del cual un nodo final de IB, como un servidor o un dispositivo de almacenamiento, se conecta a una red de IB. Los TCA son una forma especial de adaptadores de canal, que se utilizan principalmente en entornos integrados, como dispositivos de almacenamiento.

La arquitectura InfiniBand se muestra en la figura.

arquitectura de banda infinita

¿Qué es 200G InfiniBand HDR?

InfiniBand admite transmisión SDR/DDR/QDR/FDR/EDR para aumentar el ancho de banda del enlace. Recientemente, Mellanox lanzó InfiniBand 200G compatible con HDR. Mellanox lanzado recientemente Banda Infinita 200G con soporte HDR. mellanox 200Gb / s Las redes HDR InfiniBand admiten latencia ultrabaja, alto rendimiento de datos y motores de aceleración de cómputo de red inteligente. Los usuarios pueden usar controladores de software Mellanox estándar en la nube, tal como lo harían en un entorno Bare Metal. Con soporte para verbos RDMA, se puede usar todo el software MPI basado en InfiniBand como Mellanox HPC-X, MVAPICH2, Platform MPI, Intel MPI y más.

Además, los usuarios también pueden aprovechar la función de descarga de hardware de la comunicación del clúster MPI para obtener ganancias de rendimiento adicionales, lo que también mejora la eficiencia de las aplicaciones comerciales. 200G InfiniBand tiene una amplia gama de aplicaciones, incluidos motores de aceleración de computación en red, adaptadores HDR InfiniBand, conmutadores HDR InfiniBand Quantum y cableado 200G.

Aplicaciones InfiniBand

Aplicaciones InfiniBand

En cuanto al cableado 200G InfiniBand, la pieza final de la solución Mellanox 200Gbs es su línea de Cables LinkXMellanox ofrece cables de cobre de conexión directa de 200 G que alcanzan hasta 3 metros y 2 cables divisores de 100 G para habilitar enlaces HDR100, así como cables ópticos activos de 200 G que alcanzan hasta 100 metros. Todos los cables LinkX de la línea de 200 Gb/s vienen en estándar QSFP56 paquetes

¿Cuáles son las ventajas de la red InfiniBand?

  • Enlaces seriales de gran ancho de banda

- SDR: 10 Gb / s

- DDR: 20 Gb / s

- QDR: 40 Gb / s

- FDR: 56 Gb / s

- EDR: 100 Gb / s

- HDR: 200 Gb / s

NDR: 400 Gbps

  • Latencia ultrabaja

- Solicitud a solicitud de menos de 1 EE. UU.

  • Tejido autogestionable, confiable y sin pérdidas

- Control de flujo de nivel de enlace

- Control de congestión para evitar el bloqueo de HOL

  • Descarga completa de la CPU

- Protocolo de transporte confiable basado en hardware

- Kernel Bypass (las aplicaciones de nivel de usuario obtienen acceso directo al hardware)

  • Memoria expuesta al acceso de nodo remoto: lectura RDMA y escritura RDMA

- Operaciones atómicas

  • Calidad de servicio

- Canales de E / S independientes a nivel de adaptador

- Carriles virtuales a nivel de enlace

  • Escalabilidad / flexibilidad de clústeres

- Hasta 48K nodos en subred, hasta 2 ^ 128 en red

- Rutas paralelas entre nodos finales

- Posibilidad de múltiples topologías de clúster

  • Gestión de clústeres simplificada

- Gestor de rutas centralizado

- Diagnósticos y actualizaciones en banda

¿Qué es una red Ethernet?

Ethernet se refiere al estándar de especificación LAN de banda base creado por la empresa Xerox y desarrollado conjuntamente por Xerox, Intel y la empresa DEC. El estándar general Ethernet se publicó el 30 de septiembre de 1980. Es el estándar de protocolo de comunicación más general adoptado por la LAN existente. Transmite y recibe datos a través de cables. Red ethernet se utiliza para crear redes de área local y conectar varias computadoras u otros dispositivos como impresoras, escáneres, etc. En una red cableada, esto se hace con la ayuda de cables de fibra óptica, mientras que en una red inalámbrica, se hace mediante tecnología de red inalámbrica. Los principales tipos de redes Ethernet son Fast Ethernet, Gigabit Ethernet, 10-Gigabit Ethernet y Switch Ethernet.

En la actualidad, la organización estándar IEEE 802.3 organizada por IEEE ha emitido estándares de interfaz Ethernet de 100GE, 200GE y 400GE. La red Ethernet es la tecnología de transmisión con la tasa más alta en la actualidad.

InfiniBand frente a Ethernet: ¿Cual es la diferencia?

Como tecnologías de interconexión, InfiniBand y Ethernet tienen sus propias características y diferencias. Se están desarrollando y evolucionando en sus diferentes campos de aplicación, y se han convertido en dos tecnologías de interconexión indispensables en nuestro mundo de redes.

Tipos de red Ethernet

Tipos de redes Ethernet

En cuanto a la red Ethernet, junto con la tecnología IP, constituyen la piedra angular de todo el edificio de Internet en el mundo. Todas las personas y dispositivos inteligentes confían en Ethernet para realizar la interconexión de todas las cosas, lo cual está relacionado con la intención original de su diseño de lograr una mejor compatibilidad. Puede hacer que diferentes sistemas estén mejor interconectados, lo que hace que Ethernet tenga una adaptabilidad muy fuerte desde su nacimiento. Después de décadas de desarrollo, se ha convertido en el estándar de Internet.

En cuanto a la red InfiniBand, es un estándar de interconexión para solucionar el cuello de botella en la transmisión de datos en escenarios de computación de alto rendimiento. Se ha posicionado como una aplicación de alta gama desde su formulación. La interconexión no es la principal contradicción, y la comunicación de alto rendimiento es el principal punto de entrada. Infiniband es un tipo de conexión más nuevo que se lanzó recientemente. Lo bueno de esto es la velocidad que se les proporciona a los usuarios. Si bien la velocidad de su conexión dependerá en última instancia del cable que elija, las velocidades para ellos pueden llegar a 40 Gbps o incluso más.

Por lo tanto, en comparación con la tecnología Ethernet, InfiniBand es intrínsecamente diferente de Ethernet debido a las diferentes posiciones, principalmente en el ancho de banda, la demora, la confiabilidad de la red y el modo de red. InfiniBand crea directamente un canal privado y protegido entre nodos a través de conmutadores para transmitir datos y mensajes sin que la CPU participe en el acceso directo a memoria remota (RDMA). Un extremo del adaptador está conectado a la CPU a través de la interfaz PCI Express y el otro extremo está conectado a la subred InfiniBand a través del puerto de red InfiniBand. Comparado con otros protocolos de comunicación de red, esto ofrece ventajas obvias, que incluyen mayor ancho de banda, menor latencia y escalabilidad mejorada.

InfiniBand frente a Omni-Path: ventajas de InfiniBand sobre Omni-Path

Aunque NVIDIA lanzó la solución InfiniBand 400G NDR, algunos clientes todavía usan la solución 100G. Para las redes de alto rendimiento de 100 G, existen dos soluciones comunes, Omni-Path e InfiniBand, que tienen la misma velocidad y un rendimiento similar, pero la estructura de la red es muy diferente. Por ejemplo, para un clúster de 400 nodos, InfiniBand requiere solo 15 conmutadores de la serie NVIDIA Quantum 8000 y 200 cables de derivación de 200 G y 200 cables directos de 200 G, mientras que Omni-Path requiere 24 conmutadores y 876 cables directos de 100 G (384 nodos). InfiniBand es muy ventajoso en el costo inicial del equipo y en el costo posterior de operación y mantenimiento, y el consumo general de energía es mucho más bajo que Omni-Path, que es más amigable con el medio ambiente.

Ventajas de InfiniBand sobre Omni-Path

Introducción al producto InfiniBand HDR

EDR se está eliminando gradualmente del mercado en términos de demanda de los clientes, la tasa de NDR es demasiado alta y solo los clientes principales están tratando de usarla. HDR se usa ampliamente con la flexibilidad de HDR 100G y HDR 200G.

Interruptor HDR

Hay dos tipos de interruptores HDR. Uno es HDR CS8500. Un conmutador de 29U proporciona un máximo de 800 puertos HDR de 200 Gb/s, y cada puerto de 200 GB se puede dividir en 2X100G para admitir 1600 puertos HDR100 de 100 Gb/s.

El otro tipo es la serie QM8000. El panel 1U tiene 40 puertos 200G QSFP56, que se pueden dividir en 80 puertos HDR 100G como máximo para conectar tarjetas de red 100G HDR. Al mismo tiempo, cada puerto también es compatible con EDR y se conecta directamente con la tarjeta de red de EDR. Cabe señalar que el puerto 200G HDR solo se puede ralentizar a 100G y conectarse al adaptador de red EDR, y no se puede dividir en 2X100G para conectar dos adaptadores de red EDR.

HDRCS8500

Hay dos opciones para el conmutador HDR 200G: QM8700 y QM8790. La única diferencia entre los dos modelos es el modo de gestión. El QM8700 proporciona la interfaz de control para la gestión fuera de banda, mientras que el QM8790 requiere la plataforma NVIDIA Unified Fabric Manager (UFM®) para la gestión.

Serie QM8000

Para QM8700 y QM8790, hay dos opciones de flujo de aire para cada modelo del conmutador. Uno de ellos es el 8790-HS2F para flujo de aire P2C (flujo de aire delantero y trasero). El módulo de ventilador está marcado en azul. Si no reconoce las marcas, también puede identificarlas pasando la mano sobre la entrada y salida de aire del interruptor.

8790-HS2R es la marca roja en el módulo de ventilador de flujo de aire C2P (conducto delantero trasero). Aquí P2C y C2P P significa alimentación eléctrica, C significa cable (interfaz de línea), P2C (alimentación a cable), C2P (cable a alimentación) aquí el sistema de referencia es el lado de alimentación eléctrica para el frente, el lado de interfaz de línea de cable para la parte trasera.

8790-HS2R es la marca roja en el módulo de ventilador de flujo de aire C2P (conducto delantero trasero).

El QM8700 y el QM8790 generalmente se usan de dos maneras en la práctica, uno es para interconectarse con NIC HDR de 200G usando directamente 200G para 200G AOC/CAD; el otro uso común es interconectarse con NIC HDR de 100 G mediante cables de 200 G a 2X100 G, en los que un puerto QSFP200 físico de 4 G (50X56 G) del conmutador se divide en 2 puertos virtuales de 100 G (2X50 G). 4X50G) El puerto QSFP56 del conmutador se divide en dos puertos virtuales de 100G (2X50G) y, después de la división, el símbolo del puerto cambia de x/y a x/Y/z, donde "x/Y" indica el anterior. símbolo del puerto antes de la división, y "z" denota el número del puerto de un solo carril resultante (1,2), y luego cada puerto subfísico se trata como un puerto único.

El QM8700 y el QM8790 se utilizan generalmente de dos formas en la práctica

Adaptador de red HDR

Los adaptadores de red HDR son mucho más diversos que los conmutadores. El adaptador de red HDR100 admite una velocidad de transmisión de 100G. Los dos puertos HDR100 se pueden conectar al conmutador HDR a través de cables de 200G a 2x100G. A diferencia de la tarjeta de red 100G EDR, el puerto 100G de la tarjeta de red HDR100 admite transmisión 4X25G NRZ y 2X50G PAM4. La NIC HDR admite una velocidad de transmisión de 200 G y se puede conectar al conmutador a través de un cable directo de 200 G. Además de las dos tarifas de interfaz, puede seleccionar adaptadores de red PCIe, de puerto único y de puerto doble de cada tarifa según los requisitos del servicio. Los modelos comunes de adaptadores de red InfiniBand HDR proporcionados por FiberMall son los siguientes:

Los modelos comunes de adaptadores de red InfiniBand HDR proporcionados por FiberMall

La arquitectura de la red InfiniBand es simple, pero la selección de soluciones es variada. La tasa de 100G tiene una solución EDR de 100G y una solución HDR de 100G; La tasa de 200 también tiene HDR y 200G NDR en dos opciones. Los adaptadores de red, los conectores y los conmutadores que se utilizan en las diferentes soluciones son bastante diferentes.

Transferencia de datos y paquetes InfiniBand

Un paquete es la unidad básica de transmisión de datos InfiniBand. Para que la información se propague de manera eficiente en una red InfiniBand, el adaptador de canal divide la información en varios paquetes. Un paquete IBA completo consta de los campos Encabezado de ruta local, Encabezado de ruta global, Encabezado de transporte base, Encabezado de transporte extendido, Carga útil (PYLD), CRC invariable (ICRC) y CRC variante (VCRC), como se muestra en la siguiente figura.

formato de paquete de datos de banda infinita

LRH: 8 bytes, utilizados por el conmutador para determinar los puertos de origen y destino locales al reenviar paquetes y para regular la clase de servicio y el carril virtual (VL) para la transmisión de paquetes.

HRM: 40 bytes, utilizado para enrutar paquetes entre subredes y garantizar la transmisión adecuada de paquetes entre subredes. Se especifica mediante el campo Link Next Header (LNH) en el LRH, utilizando la especificación de encabezado IPv6 definida en RFC 2460.

BTH: 12 bytes, especificando el par de cola de destino (QP), el código de operación de indicación, el número de serie del paquete y la segmentación.

ETH: 4-28 bytes, proporcionando un servicio de datagramas fiable. Carga útil (PYLD): 0-4096 bytes, se envían los datos de la aplicación de extremo a extremo.

CICR: 4 bytes, encapsula los datos que permanecen sin cambios en el paquete a medida que se envía desde la dirección de origen a la dirección de destino.

CVRC: 2 bytes, encapsula la variable IBA y los paquetes raw (sin procesar) durante el enlace.

VCRC se puede reconfigurar en la estructura.

Arquitectura en capas InfiniBand

De acuerdo con la definición de IBTA, la arquitectura InfiniBand consta de capa física, capa de enlace, capa de red y capa de transporte, y su arquitectura en capas se muestra en la figura.

arquitectura en capas de banda infinita

Capa fisica: La capa física sirve a la capa de enlace y proporciona la interfaz lógica entre estas dos capas. La capa física consta de módulos como conectores de señal de puerto, conexiones físicas (eléctricas y ópticas), administración de hardware, administración de energía y líneas de codificación, cuyas funciones principales son:

(1) establecer conexiones físicas;

(2) Notificar a la capa de enlace si una conexión física es válida;

(3) Supervisar el estado de la conexión física, pasar señales de control y datos a la capa de enlace cuando la conexión física es válida y transmitir la información de control y datos procedente de la capa de enlace.

Capa de enlace: La capa de enlace es responsable de manejar el envío y la recepción de datos de enlace en paquetes, brindando servicios como direccionamiento, almacenamiento en búfer, control de flujo, detección de errores e intercambio de datos. La calidad de servicio (QoS) se refleja principalmente en esta capa. La máquina de estado se utiliza para definir las operaciones lógicas de la capa de enlace como operaciones accesibles externamente y no especifica operaciones internas.

Capa de red: La capa de red es responsable de enrutar los paquetes entre las subredes IBA, incluidas las operaciones de unidifusión y multidifusión. La capa de red no especifica el enrutamiento multiprotocolo (p. ej., enrutamiento IBA sobre tipos no IBA), ni especifica cómo se enrutan los paquetes originales entre las subredes IBA.

Capa de transporte: Cada dato IBA contiene un encabezado de transporte. El encabezado de transporte contiene la información requerida por el nodo final para realizar la operación especificada. Mediante la manipulación de QP, los clientes de comunicación del adaptador de canal IBA en la capa de transporte forman una cola de trabajo de "envío" y una cola de trabajo de "recepción".

El mecanismo de conmutación de InfiniBand

Switched Fabric utilizado en InfiniBand es una arquitectura de interconexión punto a punto basada en conmutadores orientada hacia la tolerancia a fallas y la escalabilidad del sistema.

Los conmutadores IBA son los componentes básicos del enrutamiento para el enrutamiento de subredes internas (los enrutadores IBA proporcionan la funcionalidad de enrutamiento entre subredes). La interconexión de conmutadores se logra mediante la retransmisión de paquetes entre enlaces.

Los switches InfiniBand implementan funciones como Subnet Manager Agent (SMA), Performance Manager Agent (PMA) y Baseboard Manager Agent (BMA). SMA proporciona una interfaz para que los administradores de subred obtengan datos de registros y tablas dentro del conmutador a través de paquetes de administración de subred, implementando funciones como notificación de mensajes, mapeo de nivel de servicio (SL) a carril virtual (VL), arbitraje de VL, reenvío de multidifusión y características del proveedor. . PMA proporciona una interfaz para que los administradores de rendimiento supervisen la información de rendimiento, como el rendimiento de datos y la acumulación de errores del conmutador. BMA proporciona un canal de comunicación entre el administrador de la placa base y el administrador del estante inferior.

Las funciones principales del reenvío de datos en los conmutadores InfiniBand son:

(1) Selección del puerto de salida: Según el Identificador local de destino (DLID) del paquete, el conmutador encuentra el número de puerto del puerto de salida de la tabla de reenvío.

(2) Seleccionar salida VL: SL y VL son compatibles, y el conmutador determina el VL del puerto de salida utilizado por paquetes de diferentes niveles de prioridad en función de la tabla de mapeo SL-VL.

(3) control de flujo de datos: Se utiliza un mecanismo de control de flujo a nivel de enlace basado en créditos.

(4) admite unidifusión, multidifusión y difusión: El conmutador puede convertir paquetes de multidifusión o paquetes de difusión en múltiples paquetes de unidifusión para el intercambio.

(5) Partición: Solo los hosts en la misma partición pueden comunicarse entre sí. Cada partición tiene una clave de partición única y el conmutador verifica si el DLID del paquete está dentro de la partición correspondiente a la clave.

(6) Comprobación de errores: incluida la verificación de errores de incoherencia, la verificación de errores de codificación, la verificación de errores de trama, la verificación de la longitud del paquete, la verificación de la versión del encabezado del paquete, la verificación de la validez del nivel de servicio, el cumplimiento del control de flujo y la verificación de la unidad máxima de transmisión.

(7) arbitraje VL: Soporta subred VL (incluyendo administración VL15 y datos VL). El conmutador utiliza el arbitraje VL para garantizar que los paquetes de alta prioridad reciban un mejor servicio.

En la actualidad, los principales fabricantes de switches InfiniBand son Mallanox, QLogic, Cisco, IBM, etc.

Para los hosts, el lado del cliente de la capa de transporte es una capa de software Verbs, donde el cliente pasa búferes o comandos hacia y desde estas colas, y el hardware pasa datos de búfer hacia y desde ellas. Cuando se establece QP, incorpora uno de los cuatro tipos de servicios de transporte IBA (conexión confiable, información de autodireccionamiento confiable, información de autodireccionamiento no confiable, conexión no confiable) o un servicio encapsulado de protocolo no IBA. El servicio de transporte describe cómo funcionan los datos de transporte de confiabilidad y QP y qué se transmite.

Como socio de nivel Elite de NVIDIA, FiberMall puede proporcionar Soluciones InfiniBand de acuerdo con las necesidades de los diferentes clientes, y nuestros ingenieros técnicos senior tienen una gran experiencia en el diseño de soluciones de red de alto rendimiento InfiniBand y los servicios de implementación de proyectos y pueden proporcionar soluciones óptimas de acuerdo con diferentes escenarios de aplicación. Podemos proporcionar soluciones de cartera de conmutadores QM8700/QM8790, NIC HDR, AOC/DAC/módulos ópticos para lograr un excelente rendimiento y escalabilidad, y mejorar el ROI para HPC, IA y otras aplicaciones con un costo más bajo y un rendimiento excelente.

Deja un comentario

Ir al Inicio