Cuando profundizamos en el campo de las redes informáticas de IA, descubrimos que existen dos arquitecturas principales en el mercado: InfiniBand y RoCEv2.
Estas dos arquitecturas de red compiten entre sí en términos de rendimiento, costo, versatilidad y otras dimensiones clave. Analizaremos las características técnicas de estas dos arquitecturas, sus escenarios de aplicación en redes informáticas inteligentes de IA y sus respectivas ventajas y limitaciones. Este artículo tiene como objetivo evaluar el valor de aplicación potencial y la dirección de desarrollo futuro de InfiniBand y RoCEv2 en redes informáticas de IA, con el fin de proporcionar conocimientos profundos y orientación profesional para la industria.
InfiniBand
Arquitectura de red Las redes InfiniBand se administran principalmente de forma centralizada a través de un administrador de subred (SM). El SM se implementa generalmente en un servidor conectado a la subred y actúa como el controlador central de la red. Puede haber varios dispositivos configurados como SM en una subred, pero solo uno está designado como el SM maestro, que es responsable de administrar todos los conmutadores y tarjetas de red a través de la distribución interna y la carga de mensajes de datos de administración (MAD). Cada puerto de tarjeta de red y chip de conmutador se identifica mediante un identificador único (ID local, LID) asignado por el SM para garantizar la singularidad y precisión del dispositivo dentro de la red. Las responsabilidades principales del SM incluyen mantener la información de enrutamiento de la red y calcular y actualizar la tabla de enrutamiento del chip de conmutación. La función SM Agent (SMA) dentro de la tarjeta de red permite que la tarjeta de red procese de forma independiente el mensaje enviado por el SM sin la intervención del servidor, mejorando así la automatización y la eficiencia de la red.

Diagrama de arquitectura de red InfiniBand
- Mecanismo de control de flujo de red InfiniBand
La red InfiniBand se basa en un mecanismo de crédito y cada enlace está equipado con un búfer preestablecido. El remitente comenzará a enviar datos solo después de confirmar que el receptor tiene suficiente búfer y la cantidad de datos enviados no puede exceder la capacidad máxima del búfer preestablecido actualmente disponible para el receptor. Cuando el extremo receptor recibe un mensaje, libera el búfer e informa al extremo emisor del tamaño del búfer preestablecido actualmente disponible, manteniendo así el funcionamiento sin problemas de la red y la continuidad de la transmisión de datos.
- Características de la red InfiniBand:
Control de flujo a nivel de enlace y enrutamiento adaptativo Las redes InfiniBand se basan en mecanismos de control de flujo a nivel de enlace para evitar el envío excesivo de datos, lo que evita el desbordamiento del búfer o la pérdida de paquetes de datos. Al mismo tiempo, la tecnología de enrutamiento adaptativo de la red InfiniBand puede realizar una selección de enrutamiento dinámico en función de las circunstancias específicas de cada paquete de datos, logrando una optimización en tiempo real de los recursos de la red y un equilibrio de carga óptimo en entornos de red de escala ultragrande.
RoCEv2
Arquitectura de red El protocolo RoCE (RDMA over Converged Ethernet) es un protocolo de comunicación de red en clúster que puede realizar RDMA (Remote Direct Memory Access) en Ethernet. Hay dos versiones principales del protocolo: RoCEv1 y RoCEv2. Como protocolo de capa de enlace, RoCEv1 requiere que ambas partes que se comunican estén ubicadas en la misma red de Capa 2. RoCEv2 es un protocolo de capa de red que utiliza la capa de red Ethernet y la capa de transporte UDP para reemplazar la capa de red InfiniBand, lo que proporciona una mejor escalabilidad. A diferencia de la gestión centralizada de las redes InfiniBand, RoCEv2 utiliza una arquitectura puramente distribuida, que generalmente consta de dos capas, lo que tiene ventajas significativas en escalabilidad y flexibilidad de implementación.

Diagrama de arquitectura de la red RoCEv2
- Mecanismo de control de flujo de la red RoCEv2
El control de flujo prioritario (PFC) es una estrategia de control de flujo salto a salto que aprovecha al máximo la memoria caché del conmutador configurando correctamente la marca de agua para lograr una transmisión sin pérdidas en redes Ethernet. Cuando el búfer de un puerto de conmutador descendente está sobrecargado, el conmutador solicita al dispositivo ascendente que detenga la transmisión. Los datos enviados se almacenarán en la memoria caché del conmutador descendente. Cuando la memoria caché vuelve a la normalidad, el puerto solicitará que se reanuden los paquetes de datos, manteniendo así el funcionamiento sin problemas de la red. La notificación explícita de congestión (ECN) define un mecanismo de control de flujo y notificación de congestión de extremo a extremo basado en la capa IP y la capa de transporte. El objetivo del control de congestión se logra transmitiendo información de congestión específica al servidor en el conmutador, y luego el servidor la envía al cliente para notificar al extremo de origen que reduzca la velocidad. La notificación de congestión cuantificada del centro de datos (DCQCN) es una combinación de mecanismos de notificación explícita de congestión (ECN) y control de flujo prioritario (PFC), diseñados para admitir la comunicación Ethernet sin pérdidas de extremo a extremo. El concepto central es utilizar ECN para notificar al remitente que reduzca la velocidad de transmisión cuando se produce una congestión de la red, para evitar la activación innecesaria de PFC y para evitar el desbordamiento del búfer causado por una congestión grave. A través de este control de flujo de grano fino, DCQCN puede evitar la pérdida de datos debido a la congestión y, al mismo tiempo, mantener un funcionamiento eficiente de la red.
- Características de la red RoCEv2: compatibilidad sólida y optimización de costos
Las redes RoCE utilizan la tecnología RDMA para lograr una transmisión de datos eficiente sin ocupar los ciclos de CPU de los servidores remotos, lo que permite aprovechar al máximo el ancho de banda y mejorar la escalabilidad de la red. Este enfoque reduce significativamente la latencia de la red y aumenta el rendimiento, mejorando así el rendimiento general de la red. Otra ventaja importante de la solución RoCE es que se puede integrar sin problemas en la infraestructura Ethernet existente, lo que significa que las empresas pueden lograr un salto de rendimiento sin tener que invertir en nuevos equipos ni reemplazarlos. Este método de actualización de red rentable es fundamental para reducir el gasto de capital de una empresa, lo que convierte a RoCE en la solución preferida para mejorar el rendimiento de la red en los centros informáticos inteligentes.
Diferencias técnicas entre InfiniBand y RoCEv2
Las diversas demandas de redes en el mercado han llevado al desarrollo conjunto de arquitecturas de red InfiniBand y RoCEv2. Las redes InfiniBand han demostrado ventajas significativas en el rendimiento del servicio de la capa de aplicación debido a sus tecnologías avanzadas, como un rendimiento de reenvío eficiente, un tiempo de recuperación de fallas rápido, una escalabilidad mejorada y una eficiencia de operación y mantenimiento. En particular, pueden proporcionar un excelente rendimiento de rendimiento de red en escenarios de gran escala.

Cuadro comparativo de la tecnología RoCEv2 y la red InfiniBand
La red RoCEv2 es la preferida por su gran versatilidad y bajo costo. No solo es adecuada para construir redes RDMA de alto rendimiento, sino que también es perfectamente compatible con la infraestructura Ethernet existente. Esto le otorga a RoCEv2 ventajas obvias en cuanto a amplitud y aplicabilidad, y puede satisfacer aplicaciones de red de diferentes escalas y necesidades. Las respectivas características y ventajas de estas dos arquitecturas brindan una gran cantidad de opciones para el diseño de redes de centros de computación de IA para satisfacer las necesidades específicas de diferentes usuarios.
Productos relacionados:
-
NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m en OM3/50m en OM4 MTP/MPO-12 Módulo transceptor óptico FEC multimodo $550.00
-
NVIDIA MMA4Z00-NS-FLT Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $650.00
-
NVIDIA MMA4Z00-NS Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $650.00
-
NVIDIA MMS4X00-NM Compatible 800 Gb/s Puerto doble OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 Módulo transceptor óptico SMF $900.00
-
NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Módulo transceptor óptico $1199.00
-
NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $700.00
-
Mellanox MMA1T00-HS Compatible 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 módulo transceptor óptico $139.00
-
NVIDIA MCA7J60-N004 Compatible 4m (13ft) 800G Twin-port OSFP a 2x400G OSFP InfiniBand NDR Breakout Cable de cobre activo $800.00
-
NVIDIA MCP7Y60-H01A Compatible 1.5 m (5 pies) 400G OSFP a 2x200G QSFP56 Cable de conexión directa pasiva $116.00
-
Mellanox MCP1600-E00AE30 Compatible 0.5 m InfiniBand EDR 100G QSFP28 a QSFP28 Cable de conexión directa de cobre $25.00
-
Tarjeta adaptadora NVIDIA Mellanox MCX653106A-ECAT-SP ConnectX-6 InfiniBand/VPI, HDR100/EDR/100G, puerto doble QSFP56, PCIe3.0/4.0 x16, soporte alto $828.00
-
Tarjeta adaptadora NVIDIA Mellanox MCX653105A-ECAT-SP ConnectX-6 InfiniBand/VPI, HDR100/EDR/100G, puerto único QSFP56, PCIe3.0/4.0 x16, soporte alto $965.00