Die effektive Rechenleistung eines Clusters kann in die GPU-Auslastung und die lineare Beschleunigung des Clusters unterteilt werden. Die GPU-Auslastung wird von Faktoren wie Chiparchitektur, Prozesstechnologie, Speicher, I/O-Engpässen, Inter-Card-Interconnect-Bandbreite, Topologie und Stromverbrauch beeinflusst. Andererseits hängt die „lineare Beschleunigung des Clusters“ von den Kommunikationsfähigkeiten der Knoten, parallelen Trainingsrahmen und der Ressourcenplanung ab.
Die Entwicklung einer effizienten Cluster-Netzwerklösung ist entscheidend, um geringe Latenz, hohe Bandbreite und ungehinderte Kommunikation zwischen Knoten zu erreichen. Dadurch wird der Kommunikationsaufwand zwischen mehreren Maschinen und GPUs reduziert, was letztlich die effektive GPU-Rechenzeit verbessert (GPU-Rechenzeit / Gesamttrainingszeit). Laut dem „White Paper on Network Evolution for AI Large Models“ des China Mobile Research Institute stellen große KI-Modelle neue Anforderungen an die Netzwerkinfrastruktur:
- Ultragroße Netzwerke: Supergroße KI-Modelle mit Parameterzahlen von Milliarden bis Billionen erfordern extrem hohe Rechenleistung. Folglich sind dafür große Mengen an Hardware und skalierbare Netzwerkkapazität erforderlich. Laut dem „White Paper on Novel Intelligent Computing Technologies for Ultra-Thousand-Card Clusters“ wird das Erreichen optimaler Rechenleistung, Datenverarbeitungskapazitäten, Hardware-Verbindungen für Tausende von Karten und Netzwerkverfügbarkeit zu einem kritischen Thema für KI-Rechenzentren.
- Ultrahohe Bandbreitenanforderungen: In Multi-GPU-Clustern ist sowohl die Kommunikation innerhalb als auch zwischen Servern unvermeidlich. Die Kommunikation innerhalb des Servers umfasst alle durch Modellparallelität generierten kollektiven Kommunikationsdaten, die Hunderte von Gigabyte erreichen. Daher wirken sich die Bandbreite und Methode der Kommunikation innerhalb des GPUs erheblich auf die End-to-End-Flow-Abschlusszeit aus. Die Kommunikation zwischen Servern in Modi wie Pipeline-Parallelität, Datenparallelität und Tensor-Parallelität erreicht ebenfalls ähnliche Datenmengen. Komplexe kollektive Kommunikationsmuster umfassen gleichzeitig Viele-zu-Eins- und Eins-zu-Viele-Kommunikation. Daher sind Hochgeschwindigkeitsverbindungen zwischen GPUs für die Bandbreite eines einzelnen Ports, verfügbare Verbindungen zwischen Knoten und die gesamte Netzwerkbandbreite unerlässlich.
- Ultraniedrige Latenz: Die Latenz der Datenkommunikation besteht aus statischen und dynamischen Komponenten. Die statische Latenz hängt von den Fähigkeiten des Weiterleitungschips und der Übertragungsdistanz ab. Wenn Netzwerktopologie und Kommunikationsdatenvolumen festgelegt sind, bleibt dieser Teil der Latenz relativ konstant. Die dynamische Latenz umfasst Switch-interne Warteschlangenverzögerungen und Paketverlust-Neuübertragungsverzögerungen, die normalerweise durch Netzwerküberlastung, Paketverlust und Jitter verursacht werden.
- Ultrahohe Stabilität und automatisierte Bereitstellung: Mit einer deutlichen Zunahme der Kartenanzahl wird die Netzwerkstabilität zum „schwächsten Glied“ in Clusternetzwerken. Netzwerkausfälle und Leistungsschwankungen wirken sich sowohl auf die Konnektivität zwischen Knoten als auch auf die Ressourcennutzung aus.
RDMA (Remote Direct Memory Access) kann die End-to-End-Kommunikationslatenz zwischen mehreren Maschinen und GPUs reduzieren. In herkömmlichen Netzwerken umfasst die Datenübertragung mehrere Schritte: Zuerst werden die Daten vom Kernel des Quellsystems in den Netzwerkstapel kopiert und dann über das Netzwerk übertragen. Schließlich werden die Daten auf der Empfangsseite in mehreren Schritten zurück in den Kernel des Zielsystems kopiert. RDMA umgeht den Betriebssystemkernel und ermöglicht einem Host den direkten Zugriff auf den Speicher eines anderen Hosts. Derzeit sind die wichtigsten RDMA-Technologien InfiniBand und RoCEv2 (RDMA over Converged Ethernet).
InfiniBand (IB) und RDMA over Converged Ethernet (RoCE) sind zwei herausragende Netzwerktechnologien. IB zeichnet sich durch geringe Latenz und hohe Bandbreite aus, während Ethernet Offenheit und Kosteneffizienz bietet. RoCE ist weit verbreitet und ausgereift und dient als Eckpfeiler für die Verbindung verschiedener Systeme mit guter Kompatibilität. Es profitiert auch von mehreren Anbietern, was zu Kostenvorteilen führt.
Im Gegensatz dazu ist IB auf zuverlässige Netzwerkverbindungen mit hoher Bandbreite, geringer Latenz spezialisiert, die häufig in HPC-Clustern verwendet werden. Aufgrund der eingeschränkten Anbieterunterstützung sind die Bereitstellungskosten jedoch höher als bei RoCE.
RoCE ist eine solide Wahl, während InfiniBand als außergewöhnliche Lösung hervorsticht. Insbesondere in Supercomputing-Clustern bleibt IB eine beliebte und effiziente Verbindung. Dennoch entscheiden sich viele Cloud-Computing-Unternehmen aus Kosten- und Offenheitsgründen für Open-Source-Ethernet-Switches gegenüber proprietären IB-Lösungen. Laut Brian Barrett, einem leitenden Ingenieur bei AWS, können dedizierte IB-Netzwerke wie isolierte Inseln im riesigen Ozean der flexiblen Ressourcenzuweisung und -freigabe in Cloud-Rechenzentren sein.
Darüber hinaus wurde am 19. Juli 2023 unter der Leitung der Linux Foundation das Ultra Ethernet Consortium (UEC) gegründet. Das UEC besteht aus Cloud-Anbietern (wie MATA und Microsoft), Herstellern von Netzwerkgeräten (einschließlich Broadcom, Cisco und HP) und Halbleiterunternehmen (AMD und Intel) und zielt darauf ab, einen offenen, interoperablen und leistungsstarken Kommunikationsstapel auf Ethernet-Basis bereitzustellen. Diese Initiative unterstützt die wachsenden Netzwerkanforderungen von KI und HPC.
InfiniBand bietet durch die frühe Einführung von RDMA native Vorteile wie geringe Latenz, hohe Bandbreite und Zuverlässigkeit. Im Jahr 2015 überstieg InfiniBands Anteil in der TOP500-Liste der Supercomputer 50 %, was es zur bevorzugten internen Verbindungstechnologie für Supercomputer machte.
Derzeit ist Nvidias Mellanox der Hauptlieferant für die InfiniBand (IB)-Architektur. Die InfiniBand Trade Association (IBTA) wurde ursprünglich von führenden Unternehmen wie Intel, Microsoft, SUN, IBM, Compaq und HP gegründet. Im Mai 1999 wurde Mellanox in Israel von ehemaligen Mitarbeitern von Intel und Galileo Technology gegründet. Im Jahr 2001 brachten sie ihr erstes IB-Produkt auf den Markt. Im Jahr 2002 zogen sich jedoch Intel und Microsoft, die ursprünglichen Giganten im IB-Lager, zurück.
Im Jahr 2010 fusionierte Mellanox mit Voltaire, sodass Mellanox und QLogic die wichtigsten IB-Lieferanten blieben. Im Jahr 2012 kehrte Intel ins IB-Lager zurück, indem es QLogics IB-Netzwerkgeschäft für 125 Millionen Dollar übernahm. Kurz darauf kaufte Intel auch das Supercomputing-Verbindungsgeschäft „Gemini“ XT und „Aries“ XC von Cray für 140 Millionen Dollar. Später entwickelten sie die neue Omni-Path-Verbindungstechnologie auf Basis von IB und Aries.
Im Jahr 2013 expandierte Mellanox weiter und übernahm Kotura, ein Unternehmen für Siliziumphotonik-Technologie, und IPtronics, einen Hersteller von parallelen optischen Verbindungschips. Bis 2015 hielt Mellanox einen Marktanteil von 80 % auf dem globalen InfiniBand-Markt. Im Jahr 2019 übernahm Nvidia erfolgreich Mellanox und überbot die Konkurrenten Intel und Microsoft mit einem 6.9-Milliarden-Dollar-Deal.
Werfen wir nun einen Blick auf Nvidias neueste GB200-Produktgeneration:
- Interne Konfiguration eines Racks:
Jedes Rack enthält 18 Computerfächer (10 oben, 8 unten) und 9 Switch-Fächer.
Kupferkabelkartuschen verbinden Computer- und Switch-Trays im Rack.
Durch den Einsatz eines Flüssigkeitskühlsystems erreicht der GB200 bei gleichem Stromverbrauch die 25-fache Leistung im Vergleich zur luftgekühlten Infrastruktur des H100.
Komponenten des Computerfachs:
Jedes einzelne Compute-Tray enthält:
2 GB200 Grace Blackwell Superchips
4 ConnectX-800G InfiniBand Supernics
1 BlueField-3-Datenverarbeitungseinheit (DPU).
GB200 Grace Blackwell Superchip:
Der GB200 Grace Blackwell-Superchip besteht aus zwei Blackwell-GPUs und einer Grace-CPU.
Jede einzelne Blackwell-GPU ist doppelt so groß wie die vorherige Hopper-GPU-Architektur.
Allerdings ist seine KI-Leistung (FP4) fünfmal so hoch wie die von Hopper.
Insbesondere erreicht eine einzelne Blackwell-GPU eine KI-Leistung von ungefähr 20 PetaFLOPS (FP8).
Es verfügt über 8 x 24 GB HBM3e-Speicher mit einer beeindruckenden Speicherbandbreite von 8 TB/s.
Der GB200 verfügt über 18 NVLink-Ports, die mit 18 NVLink-Switch-Chips verbunden sind und eine bidirektionale Kommunikation mit 1.8 TB/s erreichen.
ConnectX 800G InfiniBand Supernic:
ConnectX-800G InfiniBand Supernic ermöglicht End-to-End-Netzwerkverbindungen mit 800 Gb/s und Leistungsisolierung.
Es ist speziell für die effiziente Verwaltung von Multi-Tenant-KI-Clouds konzipiert.
Durch die Nutzung von PCIe 6.0 bietet es einen Datendurchsatz von 800 Gb/s.
ConnectX-8 Supernic unterstützt sowohl Single-Port-OSFP 224- als auch Dual-Port-QSFP112-Anschlüsse.
Darüber hinaus unterstützt es NVIDIA Socket Direct mit einer 16-Kanal-Zusatzkartenerweiterung.
Bluefield-3 DPU:
Die Bluefield-3 DPU stellt eine Verbindung über 400 Gb/s Ethernet- oder NDR 400 Gb/s InfiniBand-Netzwerke her.
Es entlastet, beschleunigt und isoliert softwaredefinierte Netzwerk-, Speicher-, Sicherheits- und Verwaltungsfunktionen.
Dadurch werden Leistung, Effizienz und Sicherheit des Rechenzentrums deutlich verbessert.
Jeder Switch-Tray enthält zwei NVLink-Switch-Chips.
Jeder einzelne Switch-Chip unterstützt vier Schnittstellen, wobei eine einzelne Schnittstelle eine Übertragungsrate von 1.8 TB/s erreicht.
Ein Switch-Tray bietet insgesamt 144 NVLink-Ports (100 GB), was eine Gesamtbandbreite von 14.4 TB/s ergibt.
Mit neun Switch-Trays können Sie 72 Blackwell-GPUs mit jeweils 18 NVLink-Ports (insgesamt 1296 NVLink-Ports) vollständig anschließen.
Für interne Schrankverbindungen:
Compute Trays und Switch Trays sind über NVLink der fünften Generation verbunden.
Die bidirektionale Bandbreite von NVLink der fünften Generation beträgt 1.8 TB/s, das Doppelte der vorherigen Generation und über 14-mal die Bandbreite von PCIe Gen5.
Diese GPU-zu-GPU-Kommunikation mit 1.8 TB/s ermöglicht eine GPU-Erweiterung in den Bereichen KI und Hochleistungsrechnen.
Innerhalb des Compute-Trays sind die internen GPUs und CPUs von Superchip über NVLink Chip-to-Chip-Kommunikation (bidirektionale Bandbreite von 900 GB/s) verbunden.
Verbindungen innerhalb des Schranks (innerhalb eines einzelnen Racks):
Für Konfigurationen mit bis zu 72 GPUs empfiehlt sich innerhalb eines einzelnen Racks die Verwendung von Kupferkabeln (NVLink). Die verbesserte Chipdichte und die effiziente Flüssigkeitskühlung des GB200 ermöglichen den Einsatz von mehr GPUs auf kleinerem Raum, sodass Kupferkabel eine kostengünstige Wahl für Verbindungen innerhalb von Schränken sind. Übertragungsverluste über große Entfernungen bleiben jedoch bei zukünftigen Iterationen ein Problem.
Wenn die Anzahl der GPUs 72 übersteigt, reicht ein einschichtiges Netzwerk nicht aus. Ein Upgrade auf eine Netzwerkstruktur mit höherer Schicht ist erforderlich. Es stehen zwei Optionen zur Verfügung: einzelnes NVLink- und InfiniBand-Netzwerk (IB).
Einzelne NVLink-Konfiguration:
Wenn Sie mehr als 72, aber weniger als 576 GPUs anschließen, sollten Sie eine reine NVLink-Clusterarchitektur verwenden. Das Verhältnis GPU zu optischem Modul beträgt 1:9.
Für eine Skalierbarkeit über ein einzelnes Rack hinaus empfiehlt sich die Dual-Rack-NVL72-Konfiguration. Jedes Rack enthält 18 Compute Trays und 9 Switch Trays. In der Dual-Rack-Version enthält jedes Compute Tray nur einen Grace Blackwell Superchip (2 Blackwell GPUs + 1 Grace CPU). Der Inhalt des Switch Trays bleibt in den Einzel- und Dual-Rack-Versionen gleich.
Mit 36 Blackwell-GPUs, die vollständig mit 18 NVSwitch-Chips verbunden sind (insgesamt 648 Ports), erstreckt sich ein 576-GPU-Cluster über 16 Doppelreihenschränke. Daraus ergibt sich ein kumulativer Bedarf von 10,368 Ports mit einer Geschwindigkeit von 50 GB/s in eine Richtung (100 GB/s in beide Richtungen). Unter der Annahme, dass die Netzwerkschichten L1 bis L2 optische 1.6-T-Module (200 GB/s) verwenden, benötigen wir 5,184 optische 1.6-T-Module. Das Verhältnis GPU zu optischem Modul beträgt 1:9.
InfiniBand (IB)-Konfiguration:
Wenn die gewünschte GPU-Anzahl 72 übersteigt, sollten Sie IB-Netzwerke in Betracht ziehen. Beim neuesten NVIDIA Quantum-X800 Q3400-Switch bestimmt die Anzahl der Ports die maximale GPU-Kapazität für verschiedene Netzwerkschichten.
Im Vergleich zur NVIDIA Quantum-2 QM9700 Mit nur 64 400G-Ports bietet der Quantum-X800 Q3400 144 800G-Ports, was ein Maximum von (144^2)/2 = 10,368 verbundenen GPUs ermöglicht.
Laut den Vorhersagen von SemiAnalysis beträgt das Verhältnis GPU zu optischem 1.6T-Modul ungefähr 2.5 für ein 2-Schicht-Netzwerk und rund 3.5 für ein 3-Schicht-Netzwerk.
Ähnliche Produkte:
- NVIDIA MMA4Z00-NS400 kompatibles 400G OSFP SR4 Flat Top PAM4 850 nm 30 m auf OM3/50 m auf OM4 MTP/MPO-12 Multimode FEC optisches Transceiver-Modul $650.00
- NVIDIA MMA4Z00-NS-FLT-kompatibles 800 Gbit/s Twin-Port OSFP 2x400G SR8 PAM4 850 nm 100 m DOM Dual MPO-12 MMF optisches Transceiver-Modul $850.00
- NVIDIA MMA4Z00-NS-kompatibles 800-Gbit/s-Twin-Port-OSFP-2x400G-SR8-PAM4-850-nm-100-m-DOM-Dual-MPO-12-MMF-optisches Transceiver-Modul $750.00
- NVIDIA MMS4X00-NM-kompatibles 800-Gbit/s-Twin-Port-OSFP-2x400G-PAM4-1310-nm-500-m-DOM-Dual-MTP/MPO-12-SMF-Optisch-Transceiver-Modul $1100.00
- NVIDIA MMS4X00-NM-FLT-kompatibles 800G-Twin-Port-OSFP-2x400G-Flat-Top-PAM4-1310-nm-500-m-DOM-Dual-MTP/MPO-12-SMF-optisches Transceiver-Modul $1200.00
- NVIDIA MMS4X00-NS400 kompatibles 400G OSFP DR4 Flat Top PAM4 1310 nm MTP/MPO-12 500 m SMF FEC optisches Transceiver-Modul $800.00
- Mellanox MMA1T00-HS kompatibles 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 optisches Transceiver-Modul $200.00
- NVIDIA MCA7J60-N004 kompatibles 4 m (13 Fuß) 800G Twin-Port OSFP zu 2x400G OSFP InfiniBand NDR Breakout Aktives Kupferkabel $800.00
- NVIDIA MCP7Y60-H01A kompatibles 1.5 m (5 Fuß) 400G OSFP auf 2x200G QSFP56 Passives Direct Attach Kabel $116.00
- Mellanox MCP1600-E00AE30 Kompatibles 0.5 m InfiniBand EDR 100G QSFP28-zu-QSFP28-Kupfer-Direktanschlusskabel $25.00
- NVIDIA Mellanox MCX653106A-ECAT-SP ConnectX-6 InfiniBand/VPI-Adapterkarte, HDR100/EDR/100G, Dual-Port QSFP56, PCIe3.0/4.0 x16, hohe Halterung $828.00
- NVIDIA Mellanox MCX653105A-ECAT-SP ConnectX-6 InfiniBand/VPI-Adapterkarte, HDR100/EDR/100G, Single-Port QSFP56, PCIe3.0/4.0 x16, hohe Halterung $690.00