NVLink ist eine von NVIDIA entwickelte Technologie für die Punkt-zu-Punkt-Hochgeschwindigkeitsverbindung zwischen GPUs. Ziel ist es, die Bandbreitenbeschränkung der PCIe-Verbindung zu überwinden und eine Datenkommunikation mit geringer Latenz und hoher Bandbreite zwischen GPU-Chips zu ermöglichen, sodass diese effizienter zusammenarbeiten können. Vor der Einführung der NVLink-Technologie (vor 2014) mussten GPUs über einen PCIe-Switch miteinander verbunden werden, wie in der folgenden Abbildung dargestellt. Das Signal von der GPU musste zuerst den PCIe-Switch passieren, wo die Datenverarbeitung die CPU-Verteilung und -Planung umfasste, was zu zusätzlicher Netzwerklatenz und eingeschränkter Systemleistung führte. Zu diesem Zeitpunkt hatte das PCIe-Protokoll Gen 3 erreicht, mit einer Einzelkanalrate von 8 Gbit/s und einer Gesamtbandbreite von 16 GB/s (128 Gbit/s, 1 Byte = 8 Bit) für 16 Kanäle. Da sich die Leistung des GPU-Chips kontinuierlich verbesserte, wurde die Verbindungsbandbreite zu einem Engpass.
Quelle: https://en.wikichip.org/wiki/nvidia/nvlink
Im Jahr 2014 wurde NVLink 1.0 veröffentlicht und auf den P100-Chip angewendet, wie in der folgenden Abbildung dargestellt. Es gibt vier NVlinks zwischen zwei GPUs, wobei jeder Link acht Lanes mit einer Geschwindigkeit von jeweils 20 Gbit/s enthält. Daher beträgt die bidirektionale Bandbreite des gesamten Systems 160 GB/s, was dem Fünffachen von PCIe3 x16 entspricht.
Quelle: https://en.wikichip.org/wiki/nvidia/nvlink
. NVLink besteht aus 16 Differenzleitungspaaren, die acht Kanalspuren in beide Richtungen entsprechen, wie in der folgenden Abbildung dargestellt. Die beiden Enden des Differentialpaars sind PHYs, die SerDes enthalten.
Quelle: https://www.nextplatform.com/2016/05/04/nvlink-takes-gpu-acceleration-next-level/
Basierend auf NVLink 1.0 kann eine planare Netzstruktur aus vier GPUs mit Punkt-zu-Punkt-Verbindungen zwischen jedem Paar gebildet werden. Acht GPUs entsprechen einem Cube-Mesh, das einen DGX-1-Server bilden kann. Dies entspricht auch der üblichen Acht-Karten-Konfiguration, wie in der folgenden Abbildung dargestellt. Es ist zu beachten, dass die acht GPUs derzeit keine All-to-All-Verbindung bilden.
Quelle: https://developer.nvidia.com/blog/dgx-1-fastest-deep-learning-system/
Im Jahr 2017 brachte Nvidia die zweite Generation der NVLink-Technologie auf den Markt. Es verbindet zwei GPU-V100-Chips mit sechs NVLinks, die jeweils aus acht Lanes bestehen. Die Rate jeder Spur wird auf 25 Gbit/s erhöht und die bidirektionale Bandbreite des Systems erreicht 300 GB/s, fast doppelt so viel wie bei NVLink 1.0. Um eine All-to-All-Verbindung zwischen acht GPUs zu ermöglichen, führte Nvidia gleichzeitig die NVSwitch-Technologie ein. NVSwitch 1.0 verfügt über 18 Ports mit jeweils einer Bandbreite von 50 GB/s und einer Gesamtbandbreite von 900 GB/s. Jeder NVSwitch reserviert zwei Ports für die Verbindung mit der CPU. Mithilfe von sechs NVSwitches kann eine All-to-All-Verbindung von acht GPU V100-Chips hergestellt werden, wie in der Abbildung unten dargestellt.
Quelle: https://en.wikichip.org/wiki/nvidia/nvswitch
Das DGX-2-System besteht aus zwei Platinen, wie in der Abbildung unten dargestellt, wodurch eine Gesamtverbindung von 16 GPU-Chips erreicht wird.
Quelle: https://en.wikichip.org/wiki/nvidia/nvswitch
Im Jahr 2020 kam die NVLink 3.0-Technologie auf den Markt. Es verbindet zwei GPU-A100-Chips mit 12 NVLinks, die jeweils vier Lanes enthalten. Die Geschwindigkeit jeder Spur beträgt 50 Gbit/s und die bidirektionale Bandbreite des Systems erreicht 600 GB/s, was dem Doppelten von NVLink 2.0 entspricht. Da die Anzahl der NVLinks zunahm, stieg auch die Anzahl der Ports am NVSwitch auf 36 mit einer Rate von jeweils 50 GB/s. Der DGX A100 besteht aus acht GPU-A100-Chips und vier NVSwitches, wie in der Abbildung unten dargestellt.
Quelle: http://www.eventdrive.co.kr/2020/azwell/DGX_A100_Azwellplus.pdf
Im Jahr 2022 wurde die NVLink-Technologie auf die vierte Generation aktualisiert, die es ermöglicht, zwei GPU-H100-Chips über 18 NVLink-Links miteinander zu verbinden, wobei jeder Link 2 Lanes enthält, wobei jede Lane eine Rate von 100 Gbit/s PAM4 unterstützt, wodurch die bidirektionale Gesamtbandbreite auf 900 GB erhöht wird /S. NVSwitch wurde ebenfalls auf die dritte Generation aktualisiert, wobei jeder NVSwitch 64 Ports unterstützt, jeder Port mit einer Rate von 50 GB/s. DGX H100 besteht aus 8 H100-Chips und 4 NVSwitch-Chips, wie in der Abbildung unten dargestellt. Auf der anderen Seite jedes NVSwitch mehrere 800G OSFP optische Module sind verbunden. Am Beispiel des ersten NVSwitch auf der linken Seite beträgt seine unidirektionale Gesamtbandbreite auf der mit der GPU verbundenen Seite 4 Tbit/s (20NVLink200 Gbit/s), und die Gesamtbandbreite auf der mit dem optischen Modul verbundenen Seite beträgt ebenfalls 4 Tbit/s (5800 Gbit/s), beides sind gleich groß und bilden ein nicht blockierendes Netzwerk. Es ist zu beachten, dass es sich bei der Bandbreite im optischen Modul um eine unidirektionale Bandbreite handelt, während bei AI-Chips im Allgemeinen bidirektionale Bandbreite verwendet wird.
Quelle: https://blog.apnic.net/2023/08/10/large-lingual-models-the-hardware-connection/
Das optische 800G-OSFP-SR8-Transceivermodul ist für 400G-InfiniBand-NDR-Verbindungen über Multimode-Glasfaser mit einer Wellenlänge von 850 nm konzipiert. Das Modul verfügt über zwei Ports mit optischer 4-Kanal-100G-PAM4-Modulation, die jeweils einen MTP/MPO-12-Anschluss verwenden. Im folgenden Video erfahren Sie, wie Sie es über Breakout-Glasfaserkabel mit einem anderen Gerät verbinden und wie Sie das Switch-Protokoll basierend auf InfiniBand oder Ethernet konfigurieren. Außerdem erfahren Sie mehr über die wichtigsten Funktionen und Vorteile des 800G OSFP SR8-Moduls, wie z. B. seine hohe Bandbreite, seinen geringen Stromverbrauch und seine Hot-Plug-Fähigkeit.
Die folgende Tabelle fasst die Leistungsparameter jeder NVLink-Generation zusammen.
Die Parameter jeder PCIe-Generation sind in der folgenden Tabelle aufgeführt.
Aus Sicht der Rate einer einzelnen Spur ist NVLink im Allgemeinen etwa doppelt so hoch wie PCIe im gleichen Zeitraum, und der Vorteil der Gesamtbandbreite ist noch offensichtlicher: NVLink ist etwa fünfmal so hoch wie die Gesamtbandbreite von PCIe. Es war überragend und hat nie aufgehört.
NVLink hat sich nach fast einem Jahrzehnt der Entwicklung zu einer Kerntechnologie in den GPU-Chips von Nvidia entwickelt, einem wichtigen Teil seines Ökosystems. Es löst effektiv das Problem der Datenverbindung mit hoher Bandbreite und geringer Latenz zwischen GPU-Chips und verändert die traditionelle Computerarchitektur. Da diese Technologie jedoch einzigartig für Nvidia ist, können andere KI-Chip-Hersteller nur PCIe oder andere Verbindungsprotokolle verwenden. Gleichzeitig erforscht Nvidia den Einsatz optischer Verbindungen, um die Verbindung zwischen GPUs herzustellen, wie in der Abbildung unten dargestellt, wo der Silizium-Photonik-Chip und die GPU gemeinsam verpackt sind und optische Fasern zwei GPU-Chips verbinden.
Quelle: https://www.nextplatform.com/2022/08/17/nvidia-shows-what-optically-linked-gpu-systems-might-look-like/
Ähnliche Produkte:
- NVIDIA MMA4Z00-NS400 kompatibles 400G OSFP SR4 Flat Top PAM4 850 nm 30 m auf OM3/50 m auf OM4 MTP/MPO-12 Multimode FEC optisches Transceiver-Modul $650.00
- NVIDIA MMA4Z00-NS-FLT-kompatibles 800 Gbit/s Twin-Port OSFP 2x400G SR8 PAM4 850 nm 100 m DOM Dual MPO-12 MMF optisches Transceiver-Modul $850.00
- NVIDIA MMA4Z00-NS-kompatibles 800-Gbit/s-Twin-Port-OSFP-2x400G-SR8-PAM4-850-nm-100-m-DOM-Dual-MPO-12-MMF-optisches Transceiver-Modul $750.00
- NVIDIA MMS4X00-NM-kompatibles 800-Gbit/s-Twin-Port-OSFP-2x400G-PAM4-1310-nm-500-m-DOM-Dual-MTP/MPO-12-SMF-Optisch-Transceiver-Modul $1100.00
- NVIDIA MMS4X00-NM-FLT-kompatibles 800G-Twin-Port-OSFP-2x400G-Flat-Top-PAM4-1310-nm-500-m-DOM-Dual-MTP/MPO-12-SMF-optisches Transceiver-Modul $1200.00
- NVIDIA MMS4X00-NS400 kompatibles 400G OSFP DR4 Flat Top PAM4 1310 nm MTP/MPO-12 500 m SMF FEC optisches Transceiver-Modul $800.00
- Mellanox MMA1T00-HS kompatibles 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 optisches Transceiver-Modul $200.00
- NVIDIA MFP7E10-N010-kompatibel, 10 m (33 Fuß), 8 Fasern, geringe Einfügungsdämpfung, Buchse auf Buchse, MPO-Stammkabel, Polarität B, APC auf APC LSZH, Multimode OM3 50/125 $47.00
- NVIDIA MCP7Y00-N003-FLT-kompatibler 3 m (10 Fuß) 800G Twin-Port OSFP zu 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $275.00
- NVIDIA MCP7Y70-H002 kompatibles 2 m (7 Fuß) 400G Twin-Port 2x200G OSFP zu 4x100G QSFP56 Passives Breakout Direct Attach Kupferkabel $155.00
- NVIDIA MCA4J80-N003-FTF-kompatibles 3 m (10 Fuß) 800G Twin-Port 2x400G OSFP zu 2x400G OSFP InfiniBand NDR Aktives Kupferkabel, flache Oberseite an einem Ende und gerippte Oberseite am anderen Ende $600.00
- NVIDIA MCP7Y10-N002 kompatibler 2 m (7 Fuß) 800G InfiniBand NDR Twin-Port OSFP zu 2x400G QSFP112 Breakout DAC $200.00