KI-Computerhardware: ConnectX-8 SuperNIC

Produktübersicht

Die ConnectX-8 SuperNIC ist NVIDIAs intelligente Netzwerkschnittstellenkarte der siebten Generation, die für KI-Computercluster der nächsten Generation, große Rechenzentren und High-Performance-Computing-Szenarien (HPC) entwickelt wurde. Sie integriert Netzwerkbeschleunigung und Rechen-Offloading-Funktionen umfassend und bietet ultraschnelle Unterstützung für 400 GbE/800 GbE. Durch Protokoll-Offloading auf Hardwareebene und GPU-NIC-Kooptimierung reduziert sie die Netzwerklatenz erheblich und verbessert die Durchsatzeffizienz. Sie bietet ultraniedrige Latenz und verlustfreie Netzwerkübertragungsfunktionen für KI-Training, Inferenz und verteilte Speicherszenarien.

Softwareprotokolle und Beschleunigungsfunktionen

ConnectX-8 SuperNIC optimiert die Full-Stack-Netzwerkleistung durch die enge Zusammenarbeit des Software-Protokollstapels und der Hardware-Beschleunigungs-Engine:

Protokollunterstützung

  • RDMA/RoCEv2: Basierend auf Converged Ethernet für Remote Direct Memory Access, wodurch eine Zero-Copy-Datenübertragung mit einer Latenz von nur unter einer Mikrosekunde erreicht wird.
  • GPUDirect-Technologie: Unterstützt GPUDirect RDMA und GPUDirect Storage und ermöglicht so eine direkte Dateninteraktion zwischen GPU und Speicher/NIC unter Umgehung der CPU.
  • NVIDIA SHARPv3: Aggregierte Kommunikationshardwarebeschleunigung, die AllReduce, Broadcast und andere Vorgänge unterstützt, um die Effizienz des KI-Trainings zu verbessern.
  • TLS/IPsec-Hardware-Offload: Unterstützt vollständige Verkehrsverschlüsselung und -entschlüsselung ohne Leistungsverlust.

Software-Ökosystem

  1. DOCA 2.0 (Data Center Infrastructure-on-a-Chip Architecture): Bietet ein API-gesteuertes Entwicklungsframework, das benutzerdefinierte Datenebenenbeschleunigungsfunktionen unterstützt (z. B. kollaborative DPU-Orchestrierung).
  2. Tiefe Integration mit dem CUDA-Ökosystem: Optimiert die Effizienz der knotenübergreifenden Kommunikation mehrerer GPUs durch die NCCL-Bibliothek.

Hardwarearchitektur und Konnektivitätsdesign

Host-Schnittstelle

PCIe 5.0 x16, theoretische Bandbreite von 128 GB/s, wodurch die Netzwerkleistung von 400G/800G voll ausgeschöpft wird.

Netzwerkschnittstelle

Unterstützt Single-Port 800GbE OSFP112 oder Dual-Port 400-GbE-QSFP112 flexible Konfigurationen.

Abwärtskompatibel mit 200GbE/100GbE-Geschwindigkeiten, Anpassung an vorhandene Infrastruktur.

On-Chip-Beschleunigungs-Engine

Integriert dedizierte ASICs, die Flow-Table-Management, Überlastungskontrolle (DCQCN), Paketüberprüfung und andere vollständige Hardware-Offloads unterstützen.

Netzwerkarchitektur und Konnektivität

ConnectX-8 SuperNIC unterstützt mehrschichtige CLOS-Architekturnetzwerke und erstellt bandbreitenstarke, blockierungsfreie KI-Computercluster

Einzelknotenverbindung

Jeder Server setzt 1–2 ConnectX-8-NICs ein, die über PCIe 5.0 mit dem Host verbunden sind.

Jeder Port ist über QSFP-DD-Glasfasern direkt mit dem Leaf-Switch verbunden, wodurch eine doppelte Uplink-Redundanz entsteht.

Cluster-Vernetzung

  1. Leaf Switch: NVIDIA Quantum-3-Serie (800G) oder Spectrum-4-Serie (400G), unterstützt RoCEv2 und adaptives Routing.
  2. Spine Switch: Vollständig mit Leaf-Switches über 800G-Hochgeschwindigkeitsports verbunden und bietet so eine blockierungsfreie Bandbreite.
  3. Spine-Leaf-Architektur
  4. GPU-Direktnetzwerk: Mehrknoten-GPUs erreichen über RDMA einen knotenübergreifenden direkten Speicherzugriff und bilden einen verteilten Trainingscluster.

Optische Module und Faserauswahl

Optische Module

800G-Szenarien: OSFP112 800G-SR8/VR8 (Multimode, 100 m) / 800G-DR8 (Singlemode, 500 m).

400G-Szenarien: QSFP112 400G-VR4/SR4/DR4.

Fasertypen:

Multi-Mode (MMF): OM5/OM4 (850 nm, unterstützt 400G-SR8 bis zu 100 m).

Single-Mode (SMF): OS2 (1310 nm/1550 nm, unterstützt Fernübertragung über 10 km).

Kompatible Switches und Ökosystem-Zusammenarbeit

NVIDIA-Switches:

Quant-3: 800G InfiniBand Switch, der die aggregierte Kommunikationsbeschleunigung von SHARPv3 unterstützt.

Spectrum-4: 400G-Ethernet-Switch mit Unterstützung für RoCEv2 und intelligente Verkehrsplanung.

Switches von Drittanbietern:

Arista 7800R3 (800G), Cisco Nexus 92300YC (400G): Stellen Sie die Unterstützung für RoCEv2 und ECMP-Lastausgleich sicher.

Hinterlasse einen Kommentar

Nach oben scrollen