Herkömmliche OEM-GPU-Server: Intel/AMD x86-CPU + NVIDIA-GPU
Vor 2024 basierten sowohl NVIDIAs eigene Server als auch Server von Drittanbietern, die mit NVIDIA-GPUs ausgestattet waren, auf x86-CPU-Maschinen. Die GPUs wurden über PCIe-Karten oder 8-Karten-Module mit dem Motherboard verbunden.
Zu diesem Zeitpunkt waren CPU und GPU unabhängig. Serverhersteller konnten ihre Server zusammenstellen, indem sie GPU-Module kauften (z. B. 8*A100). Die Wahl von Intel- oder AMD-CPUs hing von Überlegungen hinsichtlich Leistung, Kosten oder Wirtschaftlichkeit ab.
OEM-GPU-Server der nächsten Generation: NVIDIA-CPU + NVIDIA-GPU
Mit dem Aufkommen des NVIDIA GH200-Chips im Jahr 2024 begannen die GPUs von NVIDIA, integrierte CPUs zu enthalten.
- Ära des Desktop-Computing: Die CPU war die Hauptkomponente, die GPU (Grafikkarte) die Nebenkomponente. Der CPU-Chip konnte einen GPU-Chip integrieren, was als integrierte Grafikkarte bezeichnet wurde.
- Ära des KI-Rechenzentrums: Die GPU hat die Hauptrolle übernommen, die CPU wird zweitrangig. Der GPU-Chip/die GPU-Karte integriert jetzt die CPU.
Infolgedessen hat NVIDIA seinen Integrationsgrad erhöht und begonnen, komplette Maschinen oder komplette Racks anzubieten.
CPU-Chip: Grace (ARM) basiert auf der ARMv9-Architektur.
GPU-Chip: Hopper/Blackwell/…
Beispielsweise wurde in der Hopper-Serie zunächst der H100-80GB herausgebracht, gefolgt von weiteren Iterationen:
- H800: Eine abgespeckte Version des H100.
- H200: Eine verbesserte Version des H100.
- H20: Eine abgespeckte Version des H200, die dem H800 deutlich unterlegen ist.
Beispiele für Chipprodukte (Namensgebung)
Grace-CPU + Hopper 200 (H200)-GPU
GH200 auf einer einzigen Platine:
Grace-CPU + Blackwell 200 (B200) GPU
GB200 auf einer einzelnen Platine (Modul), mit hohem Stromverbrauch und integrierter Flüssigkeitskühlung:
72 B200 bilden ein OEM-Gehäuse NVL72:
Internes Design von GH200-Servern
Logisches Diagramm des GH200-Chips
Integration von CPU, GPU, RAM und VRAM in einem einzigen Chip
Kernhardware
Wie im Diagramm dargestellt, integriert ein einzelner GH200-Superchip die folgenden Kernkomponenten:
- Eine NVIDIA Grace-CPU
- Eins Nvidia H200 GPU
- Bis zu 480 GB CPU-Speicher
- 96 GB oder 144 GB GPU VRAM
Chip-Hardware-Verbindungen
Die CPU ist über vier PCIe Gen5 x16-Lanes mit dem Motherboard verbunden:
- Jede PCIe Gen5 x16-Lane bietet eine bidirektionale Geschwindigkeit von 128 GB/s
- Daher beträgt die Gesamtgeschwindigkeit für vier Spuren 512 GB/s
Die CPU und die GPU sind mithilfe der NVLink® Chip-2-Chip-Technologie (NVLink-C2C) miteinander verbunden:
- 900 GB/s, das ist siebenmal schneller als PCIe Gen5 x16
GPU-Verbindungen (innerhalb desselben Hosts und zwischen Hosts) verwenden 18x NVLINK4:
- 900GB / s
NVLink-C2C bietet das, was NVIDIA als „Speicherkohärenz“ bezeichnet und sorgt für Konsistenz zwischen Speicher und VRAM. Zu den Vorteilen gehören:
- Einheitlicher Arbeitsspeicher und VRAM mit bis zu 624 GB, sodass Benutzer ihn unterschiedslos nutzen können und die Entwicklereffizienz dadurch gesteigert wird
- Gleichzeitiger und transparenter Zugriff auf den CPU- und GPU-Speicher durch sowohl die CPU als auch die GPU
- Dank der großen Verbindungsbandbreite und der geringen Latenz kann der GPU-VRAM überbucht werden, sodass bei Bedarf auch der CPU-Speicher genutzt werden kann.
Als Nächstes wollen wir uns die Hardwarekomponenten wie CPU, Speicher und GPU genauer ansehen.
CPU und Speicher
72-Kern-ARMv9-CPU
Die Grace-CPU mit 72 Kernen basiert auf der Neoverse V2 Armv9-Kernarchitektur.
480 GB LPDDR5X (Low-Power DDR) Speicher
- Unterstützt bis zu 480 GB LPDDR5X-Speicher
- 500 GB/s Speicherbandbreite pro CPU
So verstehen Sie diese Geschwindigkeit im Kontext der Speicherung:
Vergleich dreier Speichertypen: DDR vs. LPDDR vs. HBM
Die meisten Server (die überwiegende Mehrheit) verwenden DDR-Speicher, der über DIMM-Steckplätze auf dem Motherboard mit der CPU verbunden ist. Die erste bis vierte Generation von LPDDR entspricht den stromsparenden Versionen von DDR1 bis DDR4, die häufig in Mobilgeräten verwendet werden.
- LPDDR5 wurde unabhängig von DDR5 entwickelt und sogar früher als DDR5 hergestellt.
- Es ist direkt an die CPU gelötet, nicht entfernbar und nicht erweiterbar, was die Kosten erhöht, aber höhere Geschwindigkeiten bietet
- Ein ähnlicher Typ ist GDDR, der in GPUs wie der RTX 4090 verwendet wird
Grafikkarte und VRAM
H200 GPU-Rechenleistung
Details zur Rechenleistung der H200-GPU finden Sie weiter unten.
VRAM-Optionen
Es werden zwei VRAM-Typen unterstützt. Sie haben die Wahl zwischen:
- 96GB HBM3
- 144 GB HBM3e mit 4.9 TB/s Bandbreite, was 50 % höher ist als beim H100 SXM.
Variante: GH200 NVL2 mit vollständiger NVLINK-Verbindung
Bei dieser Variante werden zwei GH200-Chips auf einer einzigen Platine platziert, wodurch CPU, GPU, RAM und VRAM verdoppelt werden und die beiden Chips vollständig miteinander verbunden sind. Beispielsweise in einem Server, der 8 Platinen aufnehmen kann:
- Bei Verwendung von GH200-Chips: Die Anzahl der CPUs und GPUs beträgt 8 * {72 Grace-CPUs, 1 H200-GPU}
- Bei Verwendung der GH200 NVL2-Variante: Die Anzahl der CPUs und GPUs beträgt 8 * {144 Grace-CPUs, 2 H200-GPUs}
Produktspezifikationen GH200 und GH200 NVL2 (Rechenleistung)
Die Produktspezifikationen für NVIDIA GH200 werden bereitgestellt. Der obere Abschnitt enthält CPU, Speicher und andere Parameter, während die GPU-Parameter bei „FP64“ beginnen.
GH200-Server und -Netzwerke
Es gibt zwei Serverspezifikationen, entsprechend PCIe-Karten und NVLINK-Karten.
NVIDIA MGX mit GH200: OEM-Host und Netzwerk
Das folgende Diagramm veranschaulicht eine Netzwerkmethode für einen Einzelkartenknoten:
- Jeder Knoten enthält nur einen GH200-Chip, der als PCIe-Karte ohne NVLINK funktioniert.
- Die Netzwerkkarte oder Beschleunigerkarte (BlueField-3 (BF3) DPUs) jedes Knotens ist mit einem Switch verbunden.
- Es besteht keine direkte Verbindung zwischen GPUs über Knoten hinweg; die Kommunikation erfolgt über das Hostnetzwerk (GPU -> CPU -> NIC).
- Geeignet für HPC-Workloads und kleine bis mittelgroße KI-Workloads.
NVIDIA GH200 NVL32: OEM-Gehäuse für 32 Karten
Das 32-Karten-Gehäuse verbindet 32 GH200-Chips mithilfe von NVLINK zu einem einzigen logischen GPU-Modul, daher der Name NVL32.
Das NVL32-Modul ist im Wesentlichen ein Schrank:
- Ein einzelnes Gehäuse bietet 19.5 TB Speicher und VRAM.
- NVLink TLB ermöglicht jeder GPU den Zugriff auf jeden Speicher/VRAM im Gehäuse.
Es gibt drei Arten von Speicher-/VRAM-Zugriffsmethoden in der NVIDIA GH200 NVL32, einschließlich Extended GPU Memory (EGM).
Mehrere Schränke können über ein Netzwerk zu einem Cluster zusammengeschaltet werden, der für große KI-Workloads geeignet ist.
Ähnliche Produkte:
- NVIDIA MMA4Z00-NS400 kompatibles 400G OSFP SR4 Flat Top PAM4 850 nm 30 m auf OM3/50 m auf OM4 MTP/MPO-12 Multimode FEC optisches Transceiver-Modul $650.00
- NVIDIA MMA4Z00-NS-FLT-kompatibles 800 Gbit/s Twin-Port OSFP 2x400G SR8 PAM4 850 nm 100 m DOM Dual MPO-12 MMF optisches Transceiver-Modul $850.00
- NVIDIA MMA4Z00-NS-kompatibles 800-Gbit/s-Twin-Port-OSFP-2x400G-SR8-PAM4-850-nm-100-m-DOM-Dual-MPO-12-MMF-optisches Transceiver-Modul $750.00
- NVIDIA MMS4X00-NM-kompatibles 800-Gbit/s-Twin-Port-OSFP-2x400G-PAM4-1310-nm-500-m-DOM-Dual-MTP/MPO-12-SMF-Optisch-Transceiver-Modul $1100.00
- NVIDIA MMS4X00-NM-FLT-kompatibles 800G-Twin-Port-OSFP-2x400G-Flat-Top-PAM4-1310-nm-500-m-DOM-Dual-MTP/MPO-12-SMF-optisches Transceiver-Modul $1200.00
- NVIDIA MMS4X00-NS400 kompatibles 400G OSFP DR4 Flat Top PAM4 1310 nm MTP/MPO-12 500 m SMF FEC optisches Transceiver-Modul $800.00
- Mellanox MMA1T00-HS kompatibles 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 optisches Transceiver-Modul $200.00
- NVIDIA MFP7E10-N010-kompatibel, 10 m (33 Fuß), 8 Fasern, geringe Einfügungsdämpfung, Buchse auf Buchse, MPO-Stammkabel, Polarität B, APC auf APC LSZH, Multimode OM3 50/125 $47.00
- NVIDIA MCP7Y00-N003-FLT-kompatibler 3 m (10 Fuß) 800G Twin-Port OSFP zu 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $275.00
- NVIDIA MCP7Y70-H002 kompatibles 2 m (7 Fuß) 400G Twin-Port 2x200G OSFP zu 4x100G QSFP56 Passives Breakout Direct Attach Kupferkabel $155.00
- NVIDIA MCA4J80-N003-FTF-kompatibles 3 m (10 Fuß) 800G Twin-Port 2x400G OSFP zu 2x400G OSFP InfiniBand NDR Aktives Kupferkabel, flache Oberseite an einem Ende und gerippte Oberseite am anderen Ende $600.00
- NVIDIA MCP7Y10-N002 kompatibler 2 m (7 Fuß) 800G InfiniBand NDR Twin-Port OSFP zu 2x400G QSFP112 Breakout DAC $200.00