Detaillierte Analyse des NVIDIA GH200-Chips, der Server und des Cluster-Netzwerks

Herkömmliche OEM-GPU-Server: Intel/AMD x86-CPU + NVIDIA-GPU

Vor 2024 basierten sowohl NVIDIAs eigene Server als auch Server von Drittanbietern, die mit NVIDIA-GPUs ausgestattet waren, auf x86-CPU-Maschinen. Die GPUs wurden über PCIe-Karten oder 8-Karten-Module mit dem Motherboard verbunden.

typischer 8xA100 GPU-Knoten
Typische 8-Karten A100 Host-Hardwaretopologie

Zu diesem Zeitpunkt waren CPU und GPU unabhängig. Serverhersteller konnten ihre Server zusammenstellen, indem sie GPU-Module kauften (z. B. 8*A100). Die Wahl von Intel- oder AMD-CPUs hing von Überlegungen hinsichtlich Leistung, Kosten oder Wirtschaftlichkeit ab.

OEM-GPU-Server der nächsten Generation: NVIDIA-CPU + NVIDIA-GPU

Mit dem Aufkommen des NVIDIA GH200-Chips im Jahr 2024 begannen die GPUs von NVIDIA, integrierte CPUs zu enthalten.

  • Ära des Desktop-Computing: Die CPU war die Hauptkomponente, die GPU (Grafikkarte) die Nebenkomponente. Der CPU-Chip konnte einen GPU-Chip integrieren, was als integrierte Grafikkarte bezeichnet wurde.
  • Ära des KI-Rechenzentrums: Die GPU hat die Hauptrolle übernommen, die CPU wird zweitrangig. Der GPU-Chip/die GPU-Karte integriert jetzt die CPU.

Infolgedessen hat NVIDIA seinen Integrationsgrad erhöht und begonnen, komplette Maschinen oder komplette Racks anzubieten.

CPU-Chip: Grace (ARM) basiert auf der ARMv9-Architektur.

GPU-Chip: Hopper/Blackwell/…

Beispielsweise wurde in der Hopper-Serie zunächst der H100-80GB herausgebracht, gefolgt von weiteren Iterationen:

  • H800: Eine abgespeckte Version des H100.
  • H200: Eine verbesserte Version des H100.
  • H20: Eine abgespeckte Version des H200, die dem H800 deutlich unterlegen ist.

Beispiele für Chipprodukte (Namensgebung)

Grace-CPU + Hopper 200 (H200)-GPU

GH200 auf einer einzigen Platine:

GH200 auf einer einzigen Platine
NVIDIA GH200 Chip (Board)-Rendering: Links: Grace-CPU-Chip; Rechts: Hopper-GPU-Chip.

Grace-CPU + Blackwell 200 (B200) GPU

GB200 auf einer einzelnen Platine (Modul), mit hohem Stromverbrauch und integrierter Flüssigkeitskühlung:

mit hoher Leistungsaufnahme und integrierter Flüssigkeitskühlung
NVIDIA GB200-Rendering: Ein Modul mit 2 Grace-CPUs + 4 B200-GPUs und integriertem Flüssigkeitskühlungsmodul.

72 B200 bilden ein OEM-Gehäuse NVL72:

72 B200 bilden ein OEM-Gehäuse NVL72
NVIDIA GB200 NVL72-Gehäuse

Internes Design von GH200-Servern

Logisches Diagramm des GH200-Chips

Integration von CPU, GPU, RAM und VRAM in einem einzigen Chip

Das logische Diagramm eines einzelnen NVIDIA GH200-Chips
Das logische Diagramm eines einzelnen NVIDIA GH200-Chips

Kernhardware

Wie im Diagramm dargestellt, integriert ein einzelner GH200-Superchip die folgenden Kernkomponenten:

  • Eine NVIDIA Grace-CPU
  • Eins Nvidia H200 GPU
  • Bis zu 480 GB CPU-Speicher
  • 96 GB oder 144 GB GPU VRAM

Chip-Hardware-Verbindungen

Die CPU ist über vier PCIe Gen5 x16-Lanes mit dem Motherboard verbunden:

  • Jede PCIe Gen5 x16-Lane bietet eine bidirektionale Geschwindigkeit von 128 GB/s
  • Daher beträgt die Gesamtgeschwindigkeit für vier Spuren 512 GB/s

Die CPU und die GPU sind mithilfe der NVLink® Chip-2-Chip-Technologie (NVLink-C2C) miteinander verbunden:

  • 900 GB/s, das ist siebenmal schneller als PCIe Gen5 x16

GPU-Verbindungen (innerhalb desselben Hosts und zwischen Hosts) verwenden 18x NVLINK4:

  • 900GB / s

NVLink-C2C bietet das, was NVIDIA als „Speicherkohärenz“ bezeichnet und sorgt für Konsistenz zwischen Speicher und VRAM. Zu den Vorteilen gehören:

  • Einheitlicher Arbeitsspeicher und VRAM mit bis zu 624 GB, sodass Benutzer ihn unterschiedslos nutzen können und die Entwicklereffizienz dadurch gesteigert wird
  • Gleichzeitiger und transparenter Zugriff auf den CPU- und GPU-Speicher durch sowohl die CPU als auch die GPU
  • Dank der großen Verbindungsbandbreite und der geringen Latenz kann der GPU-VRAM überbucht werden, sodass bei Bedarf auch der CPU-Speicher genutzt werden kann.

Als Nächstes wollen wir uns die Hardwarekomponenten wie CPU, Speicher und GPU genauer ansehen.

CPU und Speicher

72-Kern-ARMv9-CPU

Die Grace-CPU mit 72 Kernen basiert auf der Neoverse V2 Armv9-Kernarchitektur.

480 GB LPDDR5X (Low-Power DDR) Speicher

  • Unterstützt bis zu 480 GB LPDDR5X-Speicher
  • 500 GB/s Speicherbandbreite pro CPU

So verstehen Sie diese Geschwindigkeit im Kontext der Speicherung:

Unterstützt bis zu 480 GB LPDDR5X-Speicher

Vergleich dreier Speichertypen: DDR vs. LPDDR vs. HBM

Die meisten Server (die überwiegende Mehrheit) verwenden DDR-Speicher, der über DIMM-Steckplätze auf dem Motherboard mit der CPU verbunden ist. Die erste bis vierte Generation von LPDDR entspricht den stromsparenden Versionen von DDR1 bis DDR4, die häufig in Mobilgeräten verwendet werden.

  • LPDDR5 wurde unabhängig von DDR5 entwickelt und sogar früher als DDR5 hergestellt.
  • Es ist direkt an die CPU gelötet, nicht entfernbar und nicht erweiterbar, was die Kosten erhöht, aber höhere Geschwindigkeiten bietet
  • Ein ähnlicher Typ ist GDDR, der in GPUs wie der RTX 4090 verwendet wird

Grafikkarte und VRAM

H200 GPU-Rechenleistung

Details zur Rechenleistung der H200-GPU finden Sie weiter unten.

VRAM-Optionen

Es werden zwei VRAM-Typen unterstützt. Sie haben die Wahl zwischen:

  • 96GB HBM3
  • 144 GB HBM3e mit 4.9 TB/s Bandbreite, was 50 % höher ist als beim H100 SXM.

Bei dieser Variante werden zwei GH200-Chips auf einer einzigen Platine platziert, wodurch CPU, GPU, RAM und VRAM verdoppelt werden und die beiden Chips vollständig miteinander verbunden sind. Beispielsweise in einem Server, der 8 Platinen aufnehmen kann:

  • Bei Verwendung von GH200-Chips: Die Anzahl der CPUs und GPUs beträgt 8 * {72 Grace-CPUs, 1 H200-GPU}
  • Bei Verwendung der GH200 NVL2-Variante: Die Anzahl der CPUs und GPUs beträgt 8 * {144 Grace-CPUs, 2 H200-GPUs}

Produktspezifikationen GH200 und GH200 NVL2 (Rechenleistung)

GH200 & GH200 NVL2 Produkt

Die Produktspezifikationen für NVIDIA GH200 werden bereitgestellt. Der obere Abschnitt enthält CPU, Speicher und andere Parameter, während die GPU-Parameter bei „FP64“ beginnen.

GH200-Server und -Netzwerke

Es gibt zwei Serverspezifikationen, entsprechend PCIe-Karten und NVLINK-Karten.

NVIDIA MGX mit GH200: OEM-Host und Netzwerk

Das folgende Diagramm veranschaulicht eine Netzwerkmethode für einen Einzelkartenknoten:

NVIDIA MGX mit GH200
  • Jeder Knoten enthält nur einen GH200-Chip, der als PCIe-Karte ohne NVLINK funktioniert.
  • Die Netzwerkkarte oder Beschleunigerkarte (BlueField-3 (BF3) DPUs) jedes Knotens ist mit einem Switch verbunden.
  • Es besteht keine direkte Verbindung zwischen GPUs über Knoten hinweg; die Kommunikation erfolgt über das Hostnetzwerk (GPU -> CPU -> NIC).
  • Geeignet für HPC-Workloads und kleine bis mittelgroße KI-Workloads.

NVIDIA GH200 NVL32: OEM-Gehäuse für 32 Karten

Das 32-Karten-Gehäuse verbindet 32 ​​GH200-Chips mithilfe von NVLINK zu einem einzigen logischen GPU-Modul, daher der Name NVL32.

NVIDIA GH200 NVL32

Das NVL32-Modul ist im Wesentlichen ein Schrank:

  • Ein einzelnes Gehäuse bietet 19.5 TB Speicher und VRAM.
  • NVLink TLB ermöglicht jeder GPU den Zugriff auf jeden Speicher/VRAM im Gehäuse.
Das NVL32-Modul ist im Wesentlichen ein Schrank

Es gibt drei Arten von Speicher-/VRAM-Zugriffsmethoden in der NVIDIA GH200 NVL32, einschließlich Extended GPU Memory (EGM).

Mehrere Schränke können über ein Netzwerk zu einem Cluster zusammengeschaltet werden, der für große KI-Workloads geeignet ist.

Hinterlasse einen Kommentar

Nach oben scrollen