Analyse der neuesten Hardware von NVIDIA: B100/B200/GH200/NVL72/SuperPod

Übersicht

Wir haben NVIDIAs neueste Blackwell-GPU bereits kurz vorgestellt, aber einige Inhalte können leicht missverstanden werden, beispielsweise aufgrund der Mehrdeutigkeit oder vagen Konzepte in NVIDIAs offizieller Einführung. Darüber hinaus sind uns einige Missverständnisse über die Fähigkeiten der neuen GPU-Generation aufgefallen, beispielsweise die Annahme, dass sie eine dutzendfach verbesserte Leistung aufweisen. Daher haben wir uns entschlossen, die verschiedenen Daten umfassend zusammenzufassen, damit jeder einen umfassenderen und faireren Vergleich anstellen kann.

In diesem Artikel haben wir umfassend Hardwareinformationen zu NVIDIAs Blackwell-GPUs, einschließlich B100, B200, GH200 und NVL72, sowie zum SuperPod-576 und den entsprechenden ConnectX-800G-Netzwerkkarten, Quantum-X800-IB-Switches und Spectrum-X800-Ethernet-Switches gesammelt und sie weiter mit der vorherigen Serie verglichen. Es ist zu beachten, dass es sich bei einigen Inhalten des Artikels um Daten handelt, die wir anhand verschiedener Informationen abgeleitet haben, wie z. B. die roten Teile in einigen Tabellen, und die endgültigen Daten dem offiziellen Whitepaper (das noch nicht gesehen wurde) unterliegen. Darüber hinaus umfasst dies keine Inhalte im Zusammenhang mit dem Software-Ökosystem.

Evolution

NVIDIA hat am 19. März 2024 die neuesten GPUs mit Blackwell-Architektur veröffentlicht. Die wichtigsten davon sind die B200-, B100- und GB200-GPUs sowie die entsprechenden GB200-NVL72 und GB200-SuperPod. Die Beziehung zwischen den verschiedenen GPUs ist in der folgenden Abbildung dargestellt.

Evolution

Einzelne GPU

Die folgende Tabelle zeigt die leistungsstärksten GPUs der Ampere-, Hopper- und der neuesten Blackwell-Serie. Es ist ersichtlich, dass Speicher, Rechenleistung und NVLink nach und nach gestärkt werden. (Hinweis: NVIDIA hat auch eine spezielle Lösung veröffentlicht, bei der zwei H100 PCIe-Versionen über NVBridge verbunden sind, genannt H100 NVL, aber da es sich immer noch um zwei GPUs handelt, werden die Details hier nicht besprochen.)

A100 -> H100: Die dichte Rechenleistung von FP16 wurde um mehr als das Dreifache erhöht, während der Stromverbrauch nur von 3 W auf 400 W stieg.

H200 -> B200: Die dichte Rechenleistung von FP16 wurde um mehr als das Zweifache erhöht, während der Stromverbrauch nur von 2 W auf 700 W stieg.

Die dichte Rechenleistung des B200 FP16 ist etwa siebenmal so hoch wie die des A7, während der Stromverbrauch nur das 100-fache beträgt.

Blackwell-GPUs unterstützen die FP4-Präzision mit einer Rechenleistung, die doppelt so hoch ist wie die von FP8. Einige der Daten in den Berichten von NVIDIA vergleichen die FP4-Rechenleistung mit der FP8-Rechenleistung der Hopper-Architektur, sodass das Beschleunigungsverhältnis stärker übertrieben ist.

Es ist darauf hinzuweisen, dass:

GB200 verwendet den vollständigen B200-Chip, während B100 und B200 die entsprechenden abgespeckten Versionen sind.

GB200 nutzt den vollständigen B200-Chip

HGX-Server

HGX ist ein Hochleistungsserver von NVIDIA, der normalerweise 8 oder 4 GPUs enthält, normalerweise gepaart mit Intel- oder AMD-CPUs, und NVLink und NVSwitch verwendet, um eine vollständige Verbindung zu erreichen (8 GPUs sind normalerweise die Obergrenze der vollständigen NVLink-Verbindung, mit Ausnahme von NVL). und SuperPod).

Von HGX A100 -> HGX H100 und HGX H200 erhöhte sich die Rechenleistung des FP16 um das 3.3-fache, während der Stromverbrauch weniger als das Zweifache betrug.

Von HGX H100 und HGX H200 -> HGX B100 und HGX B200 stieg die dichte Rechenleistung des FP16 um etwa das Zweifache, während der Stromverbrauch ähnlich ist, höchstens nicht mehr als 2 %.

Es ist darauf hinzuweisen, dass:

Das Netzwerk von HGX B100 und HGX B200 wurde nicht aktualisiert und die IB-Netzwerkkarte ist immer noch 8x400 Gbit/s.

HGX B100 und HGX B200

NVL und SuperPod

Zusätzlich zu den GPU-Servern der HGX-Serie bietet NVIDIA auch Lösungen für komplette Schränke und Cluster an, die alle die neueste Grace-CPU + GPU-Lösung verwenden und mit Flüssigkeitskühlsystemen ausgestattet sind. Die folgende Tabelle zeigt die entsprechenden NVL-Gehäuse und SuperPod für die Hopper-Architektur und die Blackwell-Architektur.

NVL32 -> NVL72: Die Anzahl der GPUs stieg von 32 auf 72, und die dichte Rechenleistung des FP16 stieg von 32P auf 180P, fast um das Sechsfache, während der Stromverbrauch ebenfalls von 6 kW (keine konkrete Zahl ersichtlich, geschätzte Daten) auf 40 kW stieg , fast dreimal.

GH200 SuperPod -> GB200 SuperPod: Die Anzahl der GPUs stieg von 256 auf 576, und die dichte Rechenleistung des FP16 stieg von 256P auf 1440P, fast um das Sechsfache, und der entsprechende Stromverbrauch wurde nicht gefunden.

Die neuesten ConnectX-8 IB-Netzwerkkarten mit 800 Gbit/s Bandbreite werden im NVL72 und GB200 SuperPod verwendet, während HGX B100 und HGX B200 weiterhin ConnectX-7 IB-Netzwerkkarten mit 400 Gbit/s Bandbreite verwenden.

Es ist darauf hinzuweisen, dass:

NVIDIA gab bekannt, dass der GB200 SuperPod aus 8 NVL72 besteht, während der GH200 SuperPod nicht aus 8 NVL32 besteht.

Die Anzahl der L1-NVSwitch-Fächer und L2-NVSwitch-Fächer im GB200 SuperPod wurde nicht gesehen und ist ein geschätzter Wert.

GB200 SuperPod

Blackwell-GPU

Die Blackwell-GPU und die H100-GPU nutzen beide die 4N-Prozesstechnologie von TSMC. Der H100 enthält 80 Milliarden Transistoren, während die Blackwell-GPU 208 Milliarden Transistoren enthält. Beim H100 handelt es sich jedoch um ein Single-Die-Paket (einzelne komplette Halbleitereinheit), während es sich bei der Blackwell-GPU um ein Multi-Die-Paket mit zwei Dies handelt.

Jeder Blackwell-GPU-Chip verfügt über etwa das 1.25-fache der Rechenleistung des H100, und die beiden Chips zusammen verfügen über etwa das 2.5-fache der Rechenleistung des H100. Dies lässt sich auch an der Anzahl der Transistoren erkennen.

Die Kommunikationsbandbreite zwischen den beiden Chips beträgt 10 TB/s.

Der Speicher nutzt HBM3e, wobei jeder Chip 24 GB groß ist und eine theoretische Bandbreitenbegrenzung von 1.2 TB/s hat, wobei die tatsächliche Bandbreite 1 TB/s beträgt. Die gesamte Blackwell-GPU verfügt über 8 dieser Speicherchips.

Zusammenfassend sind die wichtigsten Spezifikationen einer vollständigen Blackwell-GPU:

Sparsame Rechenleistung (dichte Rechenleistung * 2):

FP16: 5P FLOPS (2 * 2.5P)

FP8/FP6/INT8: 10P FLOPS (2 * 5P)

FP4: 20P FLOPS (2 * 10P)

Erinnerung:

Größe: 192 GB (8 * 24 GB)

Bandbreite: 8 TB/s (8 * 1 TB/s)

Blackwell-GPU

GH200 und GB200

GH200

Der GH200 ist NVIDIAs Kombination aus der im letzten Jahr veröffentlichten H200-GPU und der Grace-CPU. Jede Grace-CPU ist mit einer H200-GPU gekoppelt, und die H200-GPU kann bis zu 96 GB oder 144 GB Speicher haben. Die Grace-CPU und die Hopper-GPU sind über NVLink-C2C mit einer Bandbreite von 900 GB/s miteinander verbunden. Zusätzlich zum HBM3e verfügt die Grace-CPU auch über 480 GB externen LPDDR5X-Speicher, allerdings ist die entsprechende Bandbreite mit 500 GB/s geringer.

GH200

GB200

Im Gegensatz zur GH200 besteht jede GB200 aus einer Grace-CPU und zwei Blackwell-GPUs, wodurch sich die GPU-Rechenleistung und der Speicher verdoppeln. CPU und GPUs sind weiterhin mit 1 GB/s über NVLink-C2C miteinander verbunden. Der entsprechende Stromverbrauch beträgt 900W.

Der GB200 verfügt über 384 GB HBM3e-Speicher und die gleichen 480 GB LPDDR5X, also insgesamt 864 GB schnellen Speicher.

GB200
schnelles Gedächtnis

HGX H100/H200 und HGX B100/B200

HGX H100 und HGX H200

Wie gezeigt, verfügt der H200 über die gleiche Rechenleistung wie der H100, jedoch mit größerem Speicher. Der maximale Speicher für 8 GPUs erhöht sich von 640 GB auf 1.1 TB. Die spärliche FP16-Rechenleistung für 8 GPUs beträgt 16P und die spärliche FP8 beträgt 32P. Die GPU-zu-GPU-Kommunikationsbandbreite beträgt für beide 900 GB/s.

HGX H100
HGX H200

HGX B100 und HGX B200

Der B100 und der B200 entsprechen den bisherigen H100 bzw. H200, jedoch ohne Grace-CPU, sodass sie mit Intel- oder AMD-CPUs verwendet werden können.

Der Speicher des B100 und B200 ist größer als der des H100 und H200. Der maximale Speicher für 8 GPUs beträgt 1.5 TB (Hinweis: Auf der NVIDIA-Website wurden zunächst 1.4 TB angezeigt, was nicht 192 GB*8 entspricht, und später auf 1.5 TB korrigiert, während im DGX B200-Datenblatt eindeutig 1440 GB oder 180 GB pro GPU angegeben sind.)

Die Rechenleistung des B100 beträgt etwa 3/4 der B200. Die spärliche FP16-Rechenleistung für 8xB100 beträgt 28P und für 8xB200 36P, sodass 8xB200 das 2.25-fache von 8xH100/H200 ist. Das bedeutet, dass die spärliche FP16-Rechenleistung eines einzelnen B200 4.5P beträgt. Es ist zu beachten, dass die tatsächliche Rechenleistung des B200 90 % der vollen B200 (im GB200) beträgt.

HGX B200
HGX B100

Das Bild zeigt die Datenblattdaten des DGX B200.

DGX B200 Datenblatt

Die Tensor-Kerne von Blackwell bieten zusätzlich Unterstützung für FP6 und FP4, und die FP4-Rechenleistung beträgt das Zweifache der FP2-Leistung und das Vierfache der FP8-Leistung. Die CUDA Cores von Blackwell unterstützen INT4 nicht mehr, und ab Hopper unterstützen sie auch INT16 nicht mehr.

Die Tensor-Cores von Blackwell haben Unterstützung für das Microscaling-Datenformat hinzugefügt, wodurch sie möglicherweise FP8, FP6, FP4 und INT8 unterstützen.

Mikroskalierendes Datenformat
Formatnamen

NVSwitch der dritten Generation

Der NVSwitch der dritten Generation verfügt über 64 NVLink-Ports mit jeweils 2 Lanes. Die Bandbreitenbegrenzung beträgt 64*50GB/s=3.2TB/s.

NVSwitch der dritten Generation

NVSwitch der vierten Generation

Der NVSwitch-Chip verfügt über 72 NVLink-Ports mit jeweils 2 Lanes und einer bidirektionalen Bandbreite von 2 x 2 x 200 Gbit/s = 100 GB/s, also insgesamt 7.2 TB/s. Die 1.8 TB/s NVLinks im Bild entsprechen 18 Ports.

NVSwitch der vierten Generation

Der B100 und der B200 nutzen den NVLink der fünften Generation und den NVSwitch der vierten Generation. Jede GPU beim B100 und B200 verfügt weiterhin über 18 NVLinks, aber die Bandbreite pro Link wurde von 50 GB/s beim NVLink der vierten Generation (H100) auf 100 GB/s erhöht. Die maximale GPU-zu-GPU-Bandbreite für B100 und B200 beträgt also 1.8 TB/s.

Die maximale Bandbreite für B100 und B200 beträgt 1.8 TB

Der NVSwitch der vierten Generation verdoppelt außerdem die GPU-zu-GPU-Bandbreite auf 1.8 TB/s. Es kann bis zu 576 GPUs unterstützen, was einem Gesamtbandbreitenlimit von 576 * 1.8 TB/s = 1 PB/s entspricht.

Gesamtbandbreitenbegrenzung von 1PB.8TB=1PB

Netzwerkkarten und Netzwerk-Switches

ConnectX-8 InfiniBand-Netzwerkkarte

NVIDIA hat auch eine neue Generation von veröffentlicht InfiniBand Netzwerkkarten, die ConnectX-8 (ConnectX-800G), mit einer entsprechenden Kommunikationsbandbreite von 800 Gbit/s. Die Vorgänger H100 und H200 nutzten die ConnectX-7-Netzwerkkarte mit einer Kommunikationsbandbreite von 400 Gbit/s, während der A100 die ConnectX-6-Netzwerkkarte mit einer Bandbreite von 200 Gbit/s nutzte.

ConnectX-8 IB Netzwerkkarte

Allerdings hat NVIDIA im HGX B800/B100 nicht die neue ConnectX-200G-Netzwerkkarte verwendet, sondern weiterhin die Vorgängergeneration ConnectX-7 verwendet, wie in den Bildern gezeigt (NVIDIA bringt Blackwell-Powered DGX SuperPOD für generative KI-Supercomputing auf den Markt). Billionen-Parameter-Skala und NVIDIA Blackwell-Plattform läuten eine neue Ära der Datenverarbeitung ein.

DGX B200-Systeme
NVIDIA bietet die HGX B200 an

BlueField-3 DPU/SuperNIC

BlueField-3 unterstützt Ethernet- und IB-Verbindungen mit Geschwindigkeiten von bis zu 400 Gbit/s und kann mit Netzwerk- und Speicherhardwarebeschleunigern kombiniert werden, die mit NVIDIA DOCA programmiert werden. Mit BlueField-3 gibt es entsprechende BlueField-3 DPU und BlueField-3 SuperNIC. Der BlueField-3 SuperNIC kann Ethernet Remote Direct Memory Access (RoCE) zwischen GPU-Servern mit Geschwindigkeiten von bis zu 400 Gbit/s bereitstellen und unterstützt 400 Gbit/s mit einem Port oder 200 Gbit/s mit zwei Ports. Die BlueField-2 SuperNIC der vorherigen Generation unterstützte nur 200 Gbit/s mit einem Port oder 100 Gbit/s mit zwei Ports.

BlueField-3 DPU
BlueField-2 SuperNIC

Quantum-X800 IB-Switch

Der Quantum-X800 ist die neue Generation des NVIDIA Quantum IB-Switches, der dies erreichen kann 800Gb / s End-to-End-Verbindungen mit extrem geringer Latenz, hauptsächlich mit Unterstützung der NVIDIA ConnectX-8-Netzwerkkarte. Der entsprechende Quantum-X800 Q3400-RA-Switch (4U) kann 144 800-Gbit/s-Ports bereitstellen, wie im Bild gezeigt, wobei er Luftkühlung nutzt, aber auch Flüssigkeitskühlung unterstützt.

Quantum-X800 IB-Switch

Spectrum-X800 Ethernet-Switch

Der Spectrum-X800 ist die neue Generation des NVIDIA Spectrum Ethernet-Switches und umfasst zwei Typen: SN5600 und SN5400, beide mit einem 2U-Design.

Spectrum-X800 Ethernet-Switch

Wie in der Tabelle gezeigt, kann der SN5600 bis zu 800 Gbit/s pro Port mit 64 Ports und einer Gesamtbandbreite von 51.2 Tbit/s unterstützen, während der SN5400 bis zu 400 Gbit/s pro Port mit 64 Ports und insgesamt unterstützen kann Bandbreite von 25.6 Tbit/s.

SN5600

GH200 NVL32 & GH200-SuperPod

GH200-Rechnerfach

Der GH200 Compute Tray basiert auf dem NVIDIA MGX-Design (1U-Größe) mit 2 GH200-Einheiten pro Compute Tray, also 2 Grace-CPUs und 2 H200-GPUs.

NVSwitch-Fach

Das NVSwitch-Tray der ersten Generation enthält 2 NVSwitch-Chips der dritten Generation mit insgesamt 128 NVLink-Ports und einer maximalen Kommunikationsbandbreite von 6.4 TB/s.

GH200 NVL32

Jeder Schrank enthält 16 GH200-Rechenfächer und 9 NVSwitch-Fächer, was insgesamt 32 GH200-GPUs und 18 NVSwitches ergibt. Die 32 GH200-GPUs verfügen über 32×18=576 NVLinks und theoretisch wären nur 576/64=9 NVSwitches erforderlich, um eine vollständige Verbindung zu erreichen, aber dieses Design umfasst 18 NVSwitches.

GH200 NVL32

GH200 SuperPod

Der GH200 SuperPod besteht aus 256 GH200-GPUs in einer vollständig miteinander verbundenen Konfiguration, jedoch nicht aus 8 NVL32-Einheiten. Stattdessen besteht es aus 32 8-Grace Hopper Superchips.

Wie in Abbildung 7 dargestellt, umfasst jeder 8-Grace-Hopper-Superchip:

8*Hopper Compute Trays (8U), jeweils mit:

1 * GH200-GPU

1*ConnectX-7 IB Netzwerkkarte, 400Gb / s

1*200Gb/s Ethernet-Karte

3*NVSwitch-Fächer (3 HE) mit insgesamt 6*NVSwitches

8-Grace Hopper Superchip

Die NVLink-Verbindungen sind wie in Abbildung 6 dargestellt, wobei jeder GH200 und jeder NVSwitch über drei NVLink-Verbindungen verfügt. Dadurch werden in dieser Richtung 3 Ports pro NVSwitch verwendet. Darüber hinaus verfügt jeder NVSwitch über 24 Ports, die mit dem L24-NVSwitch verbunden sind, sodass pro NVSwitch insgesamt 2 Ports verwendet werden. (Hinweis: Einige der NVSwitch-Ports sind redundant und theoretisch wären nur 48 NVSwitches erforderlich, daher wurden 4.5 NVSwitch-Einschübe gewählt.)

NVLink-Verbindungen

Wie in Abbildung 8 dargestellt, besteht der GH200 SuperPod aus 32 8-Grace-Hopper-Superchips. Die L1-Ebene enthält 32 x 3 = 96 NVSwitch-Fächer (192 NVSwitches) und die L2-Ebene enthält 36 NVSwitch-Fächer (64 NVSwitches). Jedes L1-NVSwitch-Fach verfügt über 24 x 2 = 48 Ports, die mit den L2-NVSwitch-Fächern verbunden sind, sodass 36 L2-NVSwitch-Fächer benötigt werden.

NVLink-Topologie

Wie in Abbildung 12 dargestellt, sind die 256 GH200-GPUs auch über einen zweistufigen IB-Switch miteinander verbunden.

Fabric-Management-Topologie

Die vollständige Konnektivität des GH200 SuperPod ist in Abbildung 5 dargestellt.

vollständige Konnektivität des GH200 SuperPod

GB200 NVL72 & GB200 SuperPod

GB200-Rechnerfach

Der GB200 Compute Tray basiert ebenfalls auf dem NVIDIA MGX-Design (1U-Größe), wobei jeder Compute Tray 2 GB200-Einheiten enthält, also 2 Grace-CPUs und 4 Blackwell-GPUs, wie im Bild gezeigt.

GB200-Rechnerfach

Jeder GB200 Compute Tray unterstützt 1.7 TB Fast Memory (Hinweis: Das „HBM3e“ im Bild ist wahrscheinlich ein Tippfehler, es sollte „Fast Memory“ und nicht „HMB3e“ lauten). Wenn es sich um den Speicher pro Blackwell-GPU handelt, sollte dieser 192 GB x 4 = 768 GB betragen. Die 1.7 TB beinhalten wahrscheinlich die zusätzlichen 480 GB LPDDR5X pro GB200, also insgesamt 768 GB + 480 GB x 2 = 1728 GB.

Blackwell-Rechenknoten
1.7 TB schneller Speicher

NVSwitch-Fach

Wie im Bild gezeigt, enthält das NVSwitch-Tray der neuen Generation außerdem 2 NVSwitch-Chips (1U-Größe) mit insgesamt 144 NVLink-Ports (72 NVLink-Ports pro NVSwitch-Chip). Jeder Port verfügt über eine Bandbreite von 100 GB/s und unterstützt eine Gesamtbandbreitenbegrenzung von 14.4 TB/s. Das NVSwitch-System der vierten Generation kann bis zu 576 GPUs unterstützen, sodass die Gesamtbandbreitenbegrenzung 576 * 1.8 TB/s = 1 PB/s erreichen kann. (Hinweis: Die 8 Ports im Bild sind keine NVLink-Ports, jeder entspricht 18 NVLinks.)

Die 8 Ports im Bild sind keine NVLink-Ports, jeder entspricht tatsächlich 18 NVLinks

Das im NVL72 verwendete NVSwitch-System ist unten dargestellt und enthält 9 NVSwitch-Fächer. Die 72 Ports im Bild entsprechen den Ports im vorherigen Bild, nicht den NVLink-Ports, mit einer Bandbreite von 1.8 TB/s (18 x 100 GB/s NVLinks).

Das im NVL72 verwendete NVSwitch-System

GB200 NVL72

Ein GB200 NVL72 enthält 18 GB200 Compute Trays, also 36 Grace-CPUs und 72 GPUs. Der gesamte GPU-Speicher beträgt 72 * 192 GB = 13.8 TB, und der schnelle Speicher LPDDR5X der CPU beträgt 480 GB x 36 = 17 TB, sodass der gesamte schnelle Speicher 30 TB beträgt. Es enthält außerdem 9 NVSwitch-Fächer.

NVIDIA bietet auch eine NVL36-Konfiguration an, die zwar immer noch 18 GB200 Compute Trays hat, aber jedes Compute Tray hat nur einen GB200, also insgesamt 18 Grace-CPUs und 36 B200-GPUs. Die entsprechende Rechenleistung ist im Bild dargestellt. Die erwähnten 30 TB sind also wahrscheinlich 13.5 TB HBM3e + 17 TB LPDDR5X.

NVIDIA bietet auch eine NVL36-Konfiguration an

Die entsprechende Rechenleistung ist in der folgenden Abbildung dargestellt:

Die entsprechende Rechenleistung

Die 30 TB HBM3e hier sollten also auch 13.5 TB HBM3e + 17 TB LPDDR5X sein:

30 TB HBM3e

GB200 SuperPod

Der GB200 SuperPod besteht aus 8 NVL72-Einheiten, also insgesamt 576 Blackwell-GPUs. Um eine vollständige Interkonnektivität zu erreichen, ist ähnlich wie bei den vorherigen 256 GH200-GPUs ein zweistufiges NVSwitch-Tray-System erforderlich (theoretische Bandbreitenbegrenzung von 576 * 1.8 TB/s = 1 PB/s):

Die Hälfte der Ports des NVSwitch-Trays der ersten Ebene sind mit den 576 Blackwell-GPUs verbunden, sodass 576 * 18 / (144/2) = 144 NVSwitch-Trays benötigt werden (die restlichen 144 * 72 Ports).

Alle Ports der NVSwitch-Fächer der zweiten Ebene sind mit den verbleibenden NVSwitch-Ports der ersten Ebene verbunden, sodass 144 * 72 / 144 = 72 NVSwitch-Fächer erforderlich sind. Jeder NVSwitch-Einschub der zweiten Ebene ist mit allen NVSwitch-Einschüben der ersten Ebene verbunden (2 Ports pro Verbindung).

Die NVSwitch-Trays der zweiten Ebene

Leistungsdatenanalyse

DGX GB200 Leistung

NVIDIA behauptet, dass der DGX B200 (entspricht dem HGX B200) eine dreifache Verbesserung der Trainingsleistung und eine 3-fache Verbesserung der Inferenzleistung im Vergleich zur vorherigen Generation des DGX H15 (HGX H100) aufweist. Allerdings unter bestimmten Voraussetzungen. Wenn man nur die FP100- oder FP16-Rechenleistung von HGX H8 bis HGX B100 betrachtet, hat sich die Rechenleistung um das 200-fache erhöht. Aber die Speichergröße ist größer, die Speicherbandbreite ist rund 2.25x höher und auch die NVLink-Bandbreite hat sich verdoppelt. Die insgesamt dreifache Verbesserung der Trainingsgeschwindigkeit entspricht also den Erwartungen.

DGX GB200 Leistung

Wie im Bild gezeigt, wurde die dreifache Trainingsgeschwindigkeit auf 3 HGX B4096-Systemen im Vergleich zu 200 HGX H4096-Systemen gemessen, wobei das GPT-MoE-100T-Modell trainiert wurde.

Die 3-fache Trainingsgeschwindigkeit wurde auf 4096 HGX B200-Systemen gemessen

Wie im Bild gezeigt, wurde die 15-fache Inferenzgeschwindigkeit auf 8 HGX B200-Systemen im Vergleich zu 8 HGX H100-Systemen gemessen, wobei das GPT-MoE-1.8T-Modell für die Inferenz verwendet wurde (die Inferenz des GPT-Modells ist normalerweise I/O-gebunden, daher ist die Speicherbandbreite entscheidend ; Um eine höhere Parallelität zu unterstützen, ist auch eine große Speichergröße wichtig. Da das Modell groß ist, werden häufig Strategien wie Tensor Parallel verwendet, sodass auch die NVLink-Bandbreite von entscheidender Bedeutung ist. Sie erreichten 3.5 Token/s bzw. 58 Token/s. Es gibt zahlreiche Faktoren, die die GPT-Inferenz beeinflussen, und bei diesen beiden Systemen werden die Verbesserungen bestimmt durch:

  • VRAM-Bandbreite (8×3.35 TB/s -> 8x8 TB/s)
  • VRAM-Größe (8x141GB -> 8x192GB)
  • NVLink-Bandbreite (7.2 TB/s -> 14.4 TB/s)
  • Rechenleistung verdoppelt (16P -> 36P)
  • FP8 -> FP4 (x2)
Inferenz großer Sprachmodelle in Echtzeit

Wie im letzten Bild gezeigt, lieferte Jensen Huang in seiner GTC-Keynote einen detaillierteren Vergleich und zeigte, dass die Verbesserung beim Vergleich von B3 FP200 und H8 FP200 nur etwa das Dreifache beträgt (wobei TP, EP, DP, PP Tensor Parallel, Expert Parallel darstellen). Datenparallel und Pipeline-Parallel). Die Verbesserung mit GB8 im FP200 ist sehr bedeutend (wahrscheinlich aufgrund der vollständigen NVLink-Verbindung im NVL4).

Vergleich von B200 FP8 und H200 FP8

GPT-MoE-1.8T-Trainingsstromverbrauch

In seiner GTC-Keynote diskutierte Jensen Huang auch den Stromverbrauch für das Training des GPT-MoE-1.8T-Modells und verglich Hopper- und Blackwell-GPUs:

  • Ein einzelner NVL32-Schrank hat eine Leistung von 40 kW, sodass 8000 GPUs etwa 10 MW betragen würden, zuzüglich weiterer Stromverbraucher, wahrscheinlich etwa 15 MW.
  • Ein einzelner NVL72-Schrank hat eine Leistung von 120 kW, sodass 2000 GPUs etwa 3.3 MW betragen würden, zuzüglich weiterer Stromverbraucher wie Netzwerk-Switches, insgesamt etwa 4 MW.
8000 GPUs
2000 GPUs

Hinterlasse einen Kommentar

Nach oben scrollen