Einführung in den NVIDIA GB200-Superchip und flüssigkeitsgekühlte Server und Schränke

Einleitung

Das NVIDIA GB200 ist ein hochintegriertes Supercomputing-Modul, das auf der Blackwell-Architektur von NVIDIA basiert. Dieses Modul kombiniert zwei NVIDIA B200 Tensor Core GPUs und eine NVIDIA Grace CPU und soll eine beispiellose KI-Leistung liefern.

Mit der Integration der Flüssigkeitskühlung arbeiten verschiedene Branchenteilnehmer zusammen, um diese Technologie zu implementieren. Wir glauben, dass Server dringend effizientere Kühlmethoden benötigen, da KI-generierte Inhalte (AIGC) den steigenden Stromverbrauch von KI-Computerchips vorantreiben. Der weltweit führende KI-Chiphersteller NVIDIA (mit seinem neuen GB200 mit Flüssigkeitskühlung) und der KI-Serverhersteller Supermicro (der plant, seine flüssigkeitsgekühlten Racks im zweiten Quartal des Geschäftsjahres 2 auszubauen) befürworten die Flüssigkeitskühlungstechnologie. Darüber hinaus schreitet die Zusammenarbeit der heimischen Industrie voran, wie die Veröffentlichung eines Whitepapers zur Flüssigkeitskühlungstechnologie durch die drei großen Telekommunikationsbetreiber im Juni 24 zeigt, in dem eine Anwendung der Flüssigkeitskühlung in über 2023 % der Projekte bis 50 und darüber hinaus vorgesehen ist. Zusammenfassend lässt sich sagen, dass die Flüssigkeitskühlung von vorgelagerten Chipherstellern, Serverherstellern, nachgelagerten IDC-Anbietern und Telekommunikationsbetreibern gefördert wird, was die Nachfrage nach Flüssigkeitskühlungsgeräten und dem Bau neuer flüssigkeitsgekühlter Rechenzentren voraussichtlich steigern wird. Laut der Prognose von DellOro wird der globale Markt für Flüssigkeitskühlung bis 2025 ein Volumen von 2 Milliarden US-Dollar erreichen.

Grundlegende Einführung in GH200 und GB200

Ein Vergleich der Parameter von GH200 und GB200 kann zu einem klareren und intuitiveren Verständnis von GB200 führen.

Der GH200, der 2023 von NVIDIA veröffentlicht wurde, kombiniert eine H200-GPU mit einer Grace-CPU, wobei eine Grace-CPU einer H200-GPU entspricht. Die H200-GPU kann bis zu 96 GB oder 144 GB Speicher haben. Die Grace-CPU und die Hopper-GPU sind über NVLink-C2C mit einer Bandbreite von 900 GB/s miteinander verbunden, und der entsprechende Stromverbrauch beträgt 1000 W.

Das logische Diagramm eines einzelnen NVIDIA GH200-Chips

Am 19. März 2024 stellte NVIDIA auf der jährlichen GTC seinen leistungsstärksten KI-Chip, den GB200, vor. Im Vergleich zum H100 ist die Rechenleistung des GB200 sechsmal höher, und für bestimmte multimodale Aufgaben kann seine Rechenleistung das 30-fache der des H100 erreichen, während der Energieverbrauch um das 25-fache gesenkt wird. Im Gegensatz zum GH200 besteht der GB200 aus einer Grace-CPU und zwei Blackwell-GPUs, wodurch sich die GPU-Rechenleistung und der Speicher verdoppeln. CPU und GPU sind weiterhin über NVLink-C2C mit einer Bandbreite von 900 GB/s miteinander verbunden, und der entsprechende Stromverbrauch beträgt 2700 W.

GB200
NVIDIA GB200-Superchip
GB200 nutzt den vollständigen B200-Chip

Aufgrund seines hohen Stromverbrauchs von 2700 W benötigt der GB200 eine effiziente Kühlung. Der GB200 NVL72 ist ein flüssigkeitsgekühltes Rack-Scale-Erweiterungssystem mit mehreren Knoten, das für rechenintensive Workloads geeignet ist.

Flüssigkeitsgekühlte Server und Schränke verschiedener Hersteller

Der GB200 ist hauptsächlich in zwei Gehäusekonfigurationen erhältlich:

GB200 NVL72 (10+9+8-Layout)

GB200 NVL36x2 (5+9+4-Layout)

GB200 NVL72 Schrank

Der Gesamtstromverbrauch des GB200 NVL72-Schranks beträgt ca. 120 kW. Während Standard-CPU-Schränke bis zu 12 kW pro Rack unterstützen, unterstützen luftgekühlte H100-Schränke mit höherer Dichte normalerweise ca. 40 kW pro Rack. Im Allgemeinen wird für einzelne Schränke mit mehr als 30 kW eine Flüssigkeitskühlung empfohlen, daher verwendet der GB200 NVL72-Schrank eine Flüssigkeitskühlungslösung.

Das GB200 NVL72-Gehäuse besteht aus 18 1U-Rechnerknoten und 9 NVSwitches. Jeder Rechenknoten ist 1U hoch und enthält 2 Bianca-Boards. Jedes Bianca-Board enthält 1 Grace-CPU und 2 Blackwell-GPUs. Das NVSwitch-Fach verfügt über zwei 28.8 Gb/s NVSwitch5 ASICs.

Diese Schrankkonfiguration wird derzeit selten eingesetzt, da die meisten Rechenzentrumsinfrastrukturen selbst mit direkter Flüssigkeitskühlung (DLC) eine so hohe Rackdichte nicht unterstützen können.

gb200 nvl72 Schrank

Das GB200 NVL36x2-Gehäuse besteht aus zwei miteinander verbundenen Gehäusen. Diese Konfiguration wird voraussichtlich die am häufigsten verwendete für GB200-Racks sein. Jedes Rack enthält 18 Grace-CPUs und 36 Blackwell-GPUs. Die beiden Gehäuse verfügen über eine nicht blockierende Vollverbindung und unterstützen die Kommunikation zwischen allen 72 GPUs im NVL72. Jeder Rechenknoten ist 2U hoch und enthält 2 Bianca-Boards. Jedes NVSwitch-Fach verfügt über zwei 28.8 Gb/s NVSwitch5 ASIC-Chips, wobei jeder Chip 14.4 Gb/s zur Backplane und 14.4 Gb/s zur Frontplane hat. Jedes NVSwitch-Fach verfügt über 18 1.6T Dual-Port-OSFP-Käfige, die horizontal mit einem Paar NVL36-Racks verbunden sind.

Das GB200 NVL36x2-Gehäuse

Während der Taipei International Computer Show 2024 wurde der GB200 NVL72 öffentlich vorgestellt. Die meisten Hersteller zeigten Einzelgehäusekonfigurationen, wie Wiwynn, ASRock, GIGABYTE, Supermicro und Inventec, mit 1U-Rechenknotenservern. GIGABYTE, Inventec und Pegatron präsentierten auch 2U-Rechenknotenserver und bezeichneten diese Konfiguration als GB200 NVL36.

Als nächstes stellen wir flüssigkeitsgekühlte Server und Schränke verschiedener Hersteller vor.

NVIDIA

Auf der GTC 2024 präsentierte NVIDIA ein Rack, das mit dem DGX GB200 NVL72 konfiguriert und über NVLink vollständig vernetzt ist. Das gesamte Gehäuse wiegt etwa 1.36 Tonnen (3,000 Pfund). Dieses System ist eine verbesserte Version des Grace-Hopper-Superchip-Rack-Systems, das NVIDIA im November 2023 vorstellte, allerdings mit mehr als der doppelten Anzahl an GPUs.

Flaggschiff-System

Das Flaggschiffsystem ist ein einzelnes Rack mit einem Stromverbrauch von 120 kW. Die meisten Rechenzentren können bis zu 60 kW pro Rack unterstützen. Wer kein einzelnes 120-kW-Rack oder einen 8-Rack-SuperPOD mit fast 1 MW einsetzen kann, kann die NVL36x2-Schrankkonfiguration verwenden.

NVIDIA DGX GB200 NVL72 vorne

Oben im Schrank befinden sich zwei Spectrum-Switches mit 52 Ports (48 Gigabit-RJ45-Ports + 4 QSFP28-Aggregationsports mit 100 Gbit/s). Diese Switches verwalten und übertragen verschiedene Daten von den Rechenknoten, NVLink-Switches und Power Frames, aus denen das System besteht.

Unter diesen Schaltern befinden sich drei der sechs Netzteile im Schrank, die anderen drei sind unten angeordnet. Diese Netzteile versorgen den 120-kW-Schrank mit Strom. Schätzungsweise sechs 415-V-, 60-A-Netzteile reichen aus, um diese Anforderung zu erfüllen, wobei eine gewisse Redundanz in das Design eingebaut ist. Der Betriebsstrom dieser Netzteile kann 60 A überschreiten. Jedes Gerät wird über eine Sammelschiene an der Rückseite des Schranks mit Strom versorgt.

Nvidia-Schalter

Unter den oberen drei Power Frames befinden sich zehn 1U-Rechnerknoten. Die Frontplatte jedes Knotens verfügt über vier InfiniBand-NICs (vier QSFP-DD-Käfige links und in der Mitte der Frontplatte), die das Rechennetzwerk bilden. Das System ist außerdem mit BlueField-3-DPUs ausgestattet, die die Kommunikation mit dem Speichernetzwerk übernehmen sollen. Neben mehreren Management-Ports gibt es vier E1.S-Laufwerksschächte.

Jeder Rechenknoten enthält zwei Grace Arm CPUs

Jeder Rechenknoten enthält zwei Grace Arm-CPUs, wobei jede Grace-CPU mit zwei Blackwell-GPUs verbunden ist. Der Stromverbrauch jedes Knotens liegt zwischen 5.4 kW und 5.7 kW, wobei der Großteil der Wärme durch Direct-to-Chip-Flüssigkeitskühlung (DTC) abgeführt wird.

NVSwitches

GB200-Prototyp
NVSwitches
Flüssigkeitskühlung

Unter den zehn Rechenknoten befinden sich neun NVSwitches. Die goldenen Komponenten auf dem Panel sind Griffe zum Einsetzen und Entfernen der Switches.

Bei den goldenen Bauteilen auf der Blende handelt es sich um Griffe zum Einsetzen und Entnehmen der Schalter.

Jeder NVLink-Switch enthält zwei NVLink-Switch-Chips, die ebenfalls Flüssigkeitskühlung verwenden.

im Inneren des Switches

Unten im Schrank, unter den neun NVSwitches, befinden sich acht 1U-Rechenknoten.

Unten im Schrank, unter den neun NVSwitches, befinden sich acht 1U-Rechenknoten.

Auf der Rückseite des Gehäuses wird ein Blindsteck-Stromschienendesign verwendet, zusammen mit Anschlüssen für die Versorgung jedes Geräts mit Kühlflüssigkeit und NVLink-Verbindungen. Jede Komponente benötigt etwas Bewegungsspielraum, um die Zuverlässigkeit der Blindsteckverbindungen zu gewährleisten.

ein Blind-Mate-Stromschienendesign

Laut Jensen Huang gelangt die Kühlflüssigkeit mit einer Geschwindigkeit von 2 l/s in das Rack, wobei die Einlasstemperatur 25 °C und die Auslasstemperatur über 20 °C beträgt.

die Kühlflüssigkeit gelangt in das Rack

NVIDIA gibt an, dass durch die Verwendung von NVLink-Kupferkabeln (Glasfaserkabeln) an der Rückseite des Gehäuses etwa 20 kW Leistung pro Gehäuse eingespart werden können. Die Gesamtlänge aller Kupferkabel wird auf über 2 Kilometer geschätzt. Dies erklärt, warum die NVLink-Switches in der Mitte des Gehäuses positioniert sind, da dies die Kabellänge minimiert.

NVIDIA DGX GB200 NVL72 NVLink Spine ohne Optik

Supermicro

supermikro 1
supermikro 2
supermikro 3
supermikro 4

Supermicro NVIDIA MGX™-Systeme

1U NVIDIA GH200 Grace Hopper™ Superchip-Systeme

supermikro 5

Foxconn

Am 18. März 2024 stellte die Foxconn-Tochter Ingrasys auf der GTC-Konferenz von NVIDIA den flüssigkeitsgekühlten Server NVL72 vor, der den GB200-Chip von NVIDIA verwendet. Dieser Server integriert 72 NVIDIA Blackwell-GPUs und 36 NVIDIA Grace-CPUs.

Jensen Huang und Foxconn pflegen gute Beziehungen und kooperieren in zahlreichen Bereichen wie Servern und anderen. Foxconns neuester Super-KI-Server, der DGX GB200, wird in der zweiten Jahreshälfte in Massenproduktion gehen. Die Produkte der GB200-Serie werden in Rack-Form ausgeliefert, das geschätzte Bestellvolumen liegt bei bis zu 50,000 Schränken. Foxconn verfügt derzeit über drei wichtige neue Produkte in der DGX GB200-Systemschrankserie: DGX NVL72, NVL32 und HGX B200. Sie sind die großen Gewinner dieses Plattformgenerationswechsels.

KI-Rack

Die flüssigkeitsgekühlte Rack-Lösung der neuen Generation für KI, NVIDIA GB200 NVL72, kombiniert 36 NVIDIA GB200 Grace Blackwell-Superchips, darunter 72 NVIDIA Blackwell-basierte GPUs und 36 NVIDIA Grace-CPUs. Sie sind über die fünfte Generation von NVIDIA NVLink miteinander verbunden und bilden eine einzige große GPU.

NVIDIA GB200 Grace Blackwell
Hardware-Fabrik

Quanta Cloud-Technologie (QCT)

Quanta Cloud-Technologie (QCT)
Qool-Rack

Auf der Veranstaltung präsentierte QCT sein 1U-Modell QuantaGrid D75B-1U. Unter dem NVIDIA GB200 NVL72-Systemrahmen kann dieses Modell 72 Geräte in einem einzigen Gehäuse unterbringen. Das D75B-1U ist mit zwei GB200 Grace Blackwell Superchips ausgestattet. QCT hob hervor, dass die CPU auf 480 GB LPDDR5X-Speicher zugreifen kann und die GPU mit 144 GB HBM3e-Hochbandbreitenspeicher ausgestattet ist, beide mit Cold Plate-Flüssigkeitskühlungszubehör. In Bezug auf den Speicher kann dieser 1U-Server acht 15 mm dicke E1.S PCIe SSDs und eine M.2 2280 PCIe SSD aufnehmen. Zur Erweiterung von PCIe-Geräten kann das D75B-1U zwei doppelt breite Schnittstellenkarten mit voller Höhe und voller Länge sowie zwei Schnittstellenkarten mit halber Höhe und halber Länge aufnehmen, die alle PCIe 5.0 x16 unterstützen.

QuantaGrid D75B-1U
QuantaGrid D75B-1U AI

Wiwynn

Als wichtiger Partner von NVIDIA ist Wiwynn eines der ersten Unternehmen, das den NVIDIA GB200 NVL72-Standard erfüllt. Auf der GTC 2024 präsentierte Wiwynn seine neuesten KI-Computing-Lösungen. Der neu veröffentlichte NVIDIA GB200 Grace Blackwell-Superchip unterstützt die neuesten NVIDIA Quantum-X800 InfiniBand- und NVIDIA Spectrum-X800-Ethernet-Plattformen. Dazu gehört ein neues flüssigkeitsgekühltes KI-Server-Rack auf Rack-Ebene, das vom NVIDIA GB200 NVL72-System angetrieben wird. Wiwynn nutzt seine Stärken in den Bereichen Hochgeschwindigkeitsdatenübertragung, Energieeffizienz, Systemintegration und fortschrittliche Kühltechnologien. Sein Ziel ist es, die neuen Anforderungen an Leistung, Skalierbarkeit und Vielfalt im Rechenzentrums-Ökosystem zu erfüllen.

Wiwynn GB200 NVL72
Lösung

Wiwynn hat außerdem das UMS100 (Universal Liquid-Cooling Management System) auf den Markt gebracht, ein fortschrittliches Flüssigkeitskühlungsmanagementsystem auf Rack-Ebene, das den wachsenden Bedarf an hoher Rechenleistung und effizienten Kühlmechanismen im aufkommenden Zeitalter der generativen KI (GenAI) erfüllen soll. Dieses innovative System bietet eine Reihe von Funktionen, darunter Echtzeitüberwachung, Kühlenergieoptimierung, schnelle Leckerkennung und Eindämmung. Es ist außerdem so konzipiert, dass es sich über die Redfish-Schnittstelle problemlos in vorhandene Rechenzentrumsmanagementsysteme integrieren lässt. Es unterstützt Industriestandardprotokolle und ist mit verschiedenen Cooling Distribution Units (CDUs) und Seitenschränken kompatibel.

ASUS

Auf der Computex Taipei 2024 stellte ASUS mehrere KI-Server vor. Dazu gehören die neuen NVIDIA Blackwell-Server, nämlich die B100-, B200- und GB200-Server, sowie AMD MI300X-Server. Hinzu kommen Intel Xeon 6-Server und AMD EPYC Turin-Server mit bis zu 500W CPU TDP.

Das Highlight ist der ASUS ESC AI POD, der über die NVIDIA GB200 NVL72-Version verfügt.

ASUS ESC AI POD
ASUS ESC AI POD 2
ASUS
ASUS NVIDIA GB200 NVL72

ASUS zeigte auch das Aussehen eines der Knoten. Im 1U-Gehäuse sehen wir die Busstromversorgung und zwei flüssigkeitsgekühlte GB200-Knoten. Diese Knoten sind mit zwei GB200 Grace Blackwell Superchips ausgestattet, die beide mit Kühlplatten abgedeckt sind. In der Mitte des Gehäuses befindet sich eine Stromverteilungsplatine (PDB), die 48-Volt-Gleichstrom in 12-Volt-Gleichstrom umwandelt, um die Blackwell-GPUs mit Strom zu versorgen. Darüber hinaus enthält dieser Rechensteckplatz ein Speichermodul für SSDs im E1.S-Formfaktor und zwei Karten der BlueField-3-Datenprozessorserie B3240 im Formfaktor mit doppelter Breite, voller Höhe und halber Länge.

Stromverteiler
INNENVERTEILER
ESC AI POD

Für Benutzer, die kostengünstige Arm-Computer und NVIDIA-GPUs suchen, gibt es die duale NVIDIA Grace Hopper GH200-Plattform, bekannt als ASUS ESC NM2-E1. Sie kombiniert zwei Grace Hopper-CPU- und GPU-Einheiten in einem System.

Regler NM2 E1

Inventec

Auf der Veranstaltung präsentierte Inventec neben den Artemis 200U- und 72U-Servern auch den GB1 NVL2 auf Schrankebene. Diese Server sind mit zwei GB200 Grace Blackwell Superchips, ConnectX-7 400Gb/s InfiniBand-Netzwerkkarten und BlueField-3 400Gb/s-Datenprozessoren ausgestattet.

Inventec_1
Inventec_6
  • 120 kW pro Schrank
  • Stromsammelschiene – 1400 A
  • 8*33 kW-Stromversorgungseinheiten – 1+1 Backup
  • Blindstopfen für Flüssigkeitskühlung + Blindstopfen für Sammelschienen + Blindstopfen für Kommunikation
  • Kühleinheit für den hinteren Schrank, bekannt als „Side Car“

Der „Side Car“ ist ein Flüssigkeitskühlschrank, der als Ergänzung zum Serverschrank konzipiert ist. Er ähnelt dem Beiwagen eines Motorrads und bietet eine effektive Kühllösung.

Hinterlasse einen Kommentar

Nach oben scrollen