Hardware informático para IA: ConnectX-8 SuperNIC

Descripción general del producto

ConnectX-8 SuperNIC es la tarjeta de interfaz de red inteligente de séptima generación de NVIDIA diseñada para clústeres de computación de IA de próxima generación, centros de datos a gran escala y escenarios de computación de alto rendimiento (HPC). Integra profundamente las capacidades de aceleración de red y descarga computacional, lo que proporciona soporte de ultraalta velocidad para 400 GbE/800 GbE. A través de la descarga de protocolos a nivel de hardware y la cooptimización GPU-NIC, reduce significativamente la latencia de la red y mejora la eficiencia del rendimiento, ofreciendo latencia ultrabaja y capacidades de transmisión de red sin pérdidas para escenarios de entrenamiento de IA, inferencia y almacenamiento distribuido.

SuperNIC ConnectX-8

Protocolos de software y funciones de aceleración

ConnectX-8 SuperNIC optimiza el rendimiento de la red de pila completa a través de la profunda colaboración de la pila de protocolos de software y el motor de aceleración de hardware:

Soporte de protocolo

  • RDMA/RoCEv2: Basado en Ethernet convergente para acceso remoto directo a memoria, logrando una transferencia de datos sin copia con una latencia tan baja como submicrosegundos.
  • Tecnología GPUDirect: admite GPUDirect RDMA y GPUDirect Storage, lo que permite la interacción directa de datos de GPU a almacenamiento/NIC, sin pasar por la CPU.
  • NVIDIA SHARPv3: aceleración de hardware de comunicación agregada que admite AllReduce, Broadcast y otras operaciones para mejorar la eficiencia del entrenamiento de IA.
  • Descarga de hardware TLS/IPsec: admite el cifrado y descifrado de tráfico completo sin pérdida de rendimiento.

Ecosistema de software

  1. DOCA 2.0 (Arquitectura de infraestructura en un chip del centro de datos): proporciona un marco de desarrollo impulsado por API que admite funciones de aceleración del plano de datos definidas por el usuario (por ejemplo, orquestación colaborativa de DPU).
  2. Integración profunda con el ecosistema CUDA: optimiza la eficiencia de la comunicación entre nodos de múltiples GPU a través de la biblioteca NCCL.
Protocolos de software y funciones de aceleración

Arquitectura de hardware y diseño de conectividad

Interfaz de host

PCIe 5.0 x16, ancho de banda teórico de 128 GB/s, que libera al máximo el rendimiento de red 400G/800G.

Interfaz de red

Admite OSFP800 de 112 GbE de puerto único o puerto doble QSFP400 de 112 GbE Configuraciones flexibles.

Compatible con versiones anteriores de velocidades de 200 GbE/100 GbE, adaptándose a la infraestructura existente.

Motor de aceleración integrado

Integra ASIC dedicados que admiten la gestión de tablas de flujo, control de congestión (DCQCN), verificación de paquetes y otras descargas completas de hardware.

400G QSFP112

Arquitectura de redes y conectividad

ConnectX-8 SuperNIC admite redes de arquitectura CLOS de múltiples capas y crea clústeres de computación de IA sin bloqueos y de gran ancho de banda.

Conexión de nodo único

Cada servidor implementa 1-2 NIC ConnectX-8, interconectadas con el host a través de PCIe 5.0.

Cada puerto se conecta directamente al conmutador de hoja a través de fibra óptica QSFP-DD, formando redundancia de enlace ascendente dual.

Redes de clústeres

  1. Leaf Switch: serie NVIDIA Quantum-3 (800G) o serie Spectrum-4 (400G), compatible con RoCEv2 y enrutamiento adaptativo.
  2. Spine Switch: Totalmente interconectado con conmutadores leaf a través de puertos de alta velocidad de 800G, lo que proporciona un ancho de banda sin bloqueos.
  3. Arquitectura de hojas y espinas
  4. Redes directas de GPU: las GPU de múltiples nodos logran acceso directo a la memoria entre nodos a través de RDMA, formando un clúster de entrenamiento distribuido.
Arquitectura de redes y conectividad

Selección de módulos ópticos y fibras

Módulos ópticos

Escenarios 800G: OSFP112 800G-SR8/VR8 (multimodo, 100 m) / 800G-DR8 (monomodo, 500 m).

OSFP-800G-DR8D

Escenarios 400G: QSFP112 400G-VR4/SR4/DR4.

Tipos de fibra:

QSFP112 400GSR4

Multimodo (MMF): OM5/OM4 (850 nm, compatible con 400G-SR8 hasta 100 m).

Monomodo (SMF): OS2 (1310 nm/1550 nm, compatible con transmisión a larga distancia de más de 10 km).

Tipos de fibra
especificaciones del producto

Conmutadores compatibles y colaboración en el ecosistema

Conmutadores NVIDIA:

Cuántico-3: Banda Infinita 800G Conmutador que admite la aceleración de comunicación agregada SHARPv3.

Spectrum-4: conmutador Ethernet de 400G compatible con RoCEv2 y programación de tráfico inteligente.

Conmutadores de terceros:

Arista 7800R3 (800G), Cisco Nexus 92300YC (400G): garantizar la compatibilidad con el equilibrio de carga de RoCEv2 y ECMP.

Conmutadores compatibles y colaboración en el ecosistema

Deja un comentario

Ir al Inicio