Laut der taiwanesischen Economic Daily News plant NVIDIA, die GB300-KI-Server-Produktlinie der nächsten Generation auf der GTC-Konferenz im März nächsten Jahres vorzustellen.
Vor Kurzem haben Foxconn und Quanta proaktiv mit der Forschung und Entwicklung von GB300 begonnen, um die Gelegenheit frühzeitig zu nutzen. Es wird davon ausgegangen, dass NVIDIA die GB300-Bestellkonfiguration vorläufig festgelegt hat, wobei Foxconn weiterhin sein größter Lieferant bleibt. GB300 wird voraussichtlich in der ersten Hälfte des nächsten Jahres auf den Markt kommen, vor den globalen Wettbewerbern. Branchenquellen zufolge sind Quanta und Inventec auch wichtige Partner für NVIDIAs GB300-KI-Server. Quanta liegt beim Auftragsanteil nach Foxconn auf Platz zwei, während Inventec seinen Auftragsanteil im Vergleich zum GB200 deutlich gesteigert hat und so in der Lage ist, die Chancen der nächsten GB300-Generation zu nutzen.
GPU: B200 → B300
Im Oktober dieses Jahres hat NVIDIA alle Blackwell Ultra-Produkte in die B300-Serie umbenannt, die die CoWoS-L-Technologie verwendet und so die Nachfrage nach fortschrittlichen Verpackungslösungen ankurbelt.
Leistungssteigerung
Die neue B300-GPU bietet eine 1.5-fach höhere Gleitkomma-Berechnungsleistung (FP4) im Vergleich zum vorherigen B200.
TDP Wärmeleistung
Der Stromverbrauch der B300-GPU kann bis zu 1400 W erreichen, verglichen mit etwa 1000 W bei der B200, was einen erheblichen Sprung darstellt. Um diese beträchtliche Leistung aufrechtzuerhalten, müssen sowohl die Stromversorgung als auch die Kühlsysteme mithalten.
Verbessertes Flüssigkeitskühlsystem
Flüssigkeitskühlplatte + verbesserter UQD-Schnellwechselanschluss: Bei einem Stromverbrauch von 1400 W reicht die Luftkühlung nicht aus. Daher verwendet das GB300 Flüssigkeitskühlplatten und verbessert die UQD-Schnellwechselanschlüsse für verbesserte Effizienz und Zuverlässigkeit.
Neues Gehäusedesign: Das Gehäuselayout, das Rohrleitungsdesign und die Kühlkanäle wurden neu gestaltet, um einer größeren Anzahl von Wasserkühlplatten, Flüssigkeitskühlsystemen und UQD-Schnellanschlusskomponenten Platz zu bieten.
Wesentliches Upgrade auf HBM3e-Speicher
192 GB → 288 GB: Erinnern Sie sich an den 192 GB HBM3-Speicher in der GB200-Ära? Jetzt verfügt jede B300-GPU über unglaubliche 288 GB HBM3e! Diese erhebliche Steigerung ist im Wesentlichen ein grünes Licht für umfangreiches Modelltraining und macht es für große Modelle mit Hunderten von Milliarden Parametern äußerst attraktiv.
Stapeln von 8 Schichten → 12 Schichten: Im Vergleich zum vorherigen 8-Schichten-Stapel verwendet die neue Konfiguration einen 12-Schichten-Stapel – was nicht nur die Kapazität erhöht, sondern auch die Bandbreite deutlich verbessert. Diese hohe Parallelität ermöglicht einen reibungslosen Datenfluss ohne Engpässe.
Netz und Übertragung
Netzwerkkarte: ConnectX 7 → ConnectX 8: Der GB300 wurde von der ConnectX 7-Netzwerkkarte auf ConnectX 8 aktualisiert. Dieses Upgrade bringt umfassende Verbesserungen bei Bandbreite, Latenz und Zuverlässigkeit und gewährleistet eine nahtlose Datenübertragung in großen Clustern.
Optische Module: 800G → 1.6T: Das Upgrade von 800G auf 1.6T ist vergleichbar mit dem Schalten vom zweiten in den vierten Gang. Für Szenarien mit massiven Dateninteraktionen, wie HPC- und KI-Training, ist diese Bandbreitenerhöhung lebensrettend.
Energieverwaltung und Zuverlässigkeit
Neuzugänge: Standardisiertes Kondensatorfach und BBU: Das GB300 NVL72-Gehäuse verfügt jetzt über ein standardisiertes Kondensatorfach mit einem optionalen Battery Backup Unit (BBU)-System. Jedes BBU-Modul kostet etwa 300 US-Dollar, und das gesamte GB300-System erfordert etwa 5 BBU-Module, was insgesamt etwa 1500 US-Dollar kostet. Dies mag zwar kostspielig erscheinen, ist jedoch eine wichtige Investition, um plötzliche Stromausfälle in KI-Umgebungen mit hoher Belastung und hohem Stromverbrauch zu vermeiden.
Hohe Nachfrage nach Superkondensatoren: Jedes NVL72-Rack benötigt über 300 Superkondensatoren, um plötzliche Stromstöße abzufangen und das System zu schützen. Mit einem Preis von 20 bis 25 US-Dollar pro Stück ist dies eine erhebliche Ausgabe, aber für das stromhungrige GB300 notwendig.
Große Speicherrevolution
LPCAMM betritt die Serverbühne: NVIDIA hat den LPCAMM-Standard (Low Power CAMM) erstmals für Server-Computerplatinen eingeführt. Dieser „kleine Kerl“, der zuvor in leichten Laptops verwendet wurde, nimmt es nun mit den hohen Belastungsanforderungen von Servern auf und stellt dabei seine außergewöhnlichen Fähigkeiten unter Beweis. Die Einführung von LPCAMM in Servern deutet auf einen Trend hin, diese „schlanker und eleganter“ zu machen, was auf eine mögliche Verschiebung hin zu einem modischeren Ansatz im Serverdesign hindeutet.
Ersetzen herkömmlicher DIMMs?: LPCAMM bietet eine kompaktere, energieeffizientere und leichter zu wartende Lösung. Es könnte in Zukunft herkömmliche RDIMMs und LRDIMMs vollständig ersetzen und möglicherweise zu erheblichen Umwälzungen im Serverspeichermarkt führen. Wenn LPCAMM tatsächlich herkömmliche DIMMs ersetzt, könnte dies eine große Veränderung in der Serverspeicherlandschaft einleiten.
Die NVIDIA GB300 „Blackwell Ultra“ wird die Rechenleistungsgrenze für KI deutlich erhöhen. Die Verbesserungen bei den GPU-Kernen, die massive HBM3e-Speicherunterstützung und die umfassenden Upgrades bei Kühlung und Energieverwaltung zeigen, dass große Modelle und groß angelegtes Computing die unaufhaltsamen Trends der Zukunft sind. Darüber hinaus wird durch die Einbindung von LPCAMM und 1.6 T Netzwerkbandbreite die Effizienz von Cloud-Rechenzentren und Supercomputing-Zentren weiter verbessert.
Es ist klar, dass das „Wettrüsten“ um die Rechenleistung der KI gerade erst beginnt. Diejenigen, die in den Hardware- und Software-Ökosystemen die Führung übernehmen, könnten die nächste Welle der KI-Revolution durchaus dominieren.