NVIDIA stellt Blackwell B200 GPU, Quantum-X800 Q3400 InfiniBand Switch und ConnectX-8 SuperNIC vor

Fünf Jahre später kehrte die weltweit bekannte Veranstaltung für KI-Computing-Technologie, die jährliche NVIDIA GTC-Konferenz, deutlich zum Präsenzformat zurück. Heute hielt Jensen Huang, Gründer und CEO von NVIDIA, eine zweistündige Grundsatzrede, in der er den neuesten bahnbrechenden KI-Chip vorstellte – die Blackwell GPU.

Eröffnung

Während dieser Konferenz zeigte NVIDIA einen beeindruckenden Brancheneinfluss, indem es Top-KI-Experten und Branchenführer zusammenbrachte. Die Veranstaltung verzeichnete mit über zehntausend persönlichen Teilnehmern eine beispiellose Beteiligung. 

über zehntausend persönliche Teilnehmer

Am 18. März um 1:00 Uhr Ortszeit (4:00 Uhr am 19. März in Peking) begann offiziell die mit Spannung erwartete Keynote-Rede der GTC. Nach einem Kurzfilm zum Thema KI betrat Jensen Huang in seiner ikonischen schwarzen Lederjacke die Hauptbühne und unterhielt sich mit dem Publikum.

Jensen Huang

Er begann damit, über NVIDIAs 30-jährige Reise zur Beschleunigung des Computings nachzudenken und Meilensteine ​​wie die Entwicklung des revolutionären CUDA-Computing-Modells, die Bereitstellung des ersten KI-Supercomputers DGX für OpenAI und die anschließende natürliche Verlagerung des Fokus auf generative KI hervorzuheben.

NVIDIAs 30-jährige Reise

Nachdem er wichtige Partnerschaften mit führenden EDA-Unternehmen angekündigt hatte, erörterte er die rasante Entwicklung von KI-Modellen, die zu einem Anstieg des Bedarfs an Trainingsrechenleistung führt, und betonte den Bedarf an größeren GPUs. Er erklärte, dass „das beschleunigte Rechnen einen kritischen Punkt erreicht hat und das Allzweck-Computing an Schwung verloren hat“, und hob die bedeutenden Fortschritte beim beschleunigten Rechnen in verschiedenen Branchen hervor. Anschließend blitzten eine Reihe wichtiger Komponenten von GPUs und Superchips bis hin zu Supercomputern und Clustersystemen schnell auf der großen Leinwand auf, bevor Jensen Huang die große Ankündigung machte: Der brandneue Flaggschiff-KI-Chip – Blackwell GPU – ist da!

Die Blackwell-GPU ist da

Diese neueste Innovation im GPU-Bereich übertrifft die Vorgänger-GPU Hopper sowohl in der Konfiguration als auch in der Leistung. Jensen Huang verglich Blackwell- und Hopper-GPUs und stellte die deutlich größere Größe von Blackwell heraus. Nach diesem Vergleich beruhigte er Hopper humorvoll mit den Worten: „Es ist in Ordnung, Hopper. Du bist sehr gut, guter Junge. Braves Mädchen." Die Leistung von Blackwell ist in der Tat außergewöhnlich! Ob es sich um FP8 oder die neuen FP6- und FP4-Präzision handelt, zusammen mit dem Modellmaßstab und der HBM-Bandbreite, die es aufnehmen kann – alles übertrifft die vorherige Hopper-Generation.

Blackwell-GPU

Im Laufe von 8 Jahren von der Pascal-Architektur zur Blackwell-Architektur hat NVIDIA die KI-Rechenleistung um das Tausendfache gesteigert!

NVIDIA hat die KI-Rechenleistung um das Tausendfache gesteigert

Dies ist erst der Anfang, denn Jensen Huangs wahres Ziel besteht darin, die leistungsstärkste KI-Infrastruktur zu schaffen, die GPU-Berechnungen auf Billionen-Parameter-Ebene optimieren kann. Insgesamt stellte NVIDIA auf der diesjährigen GTC-Konferenz sechs wichtige Ankündigungen vor:

  1. Einführung der Blackwell-GPU: Trainingsleistung um das 2.5-fache erhöht, FP4-Präzisionsinferenzleistung um das Fünffache im Vergleich zum vorherigen FP5 verbessert; aktualisierter NVLink der fünften Generation mit Verbindungsgeschwindigkeit, die doppelt so hoch ist wie die Geschwindigkeit von Hopper; skalierbar auf bis zu 8 GPUs, um Kommunikationsengpässe in gemischten Expertenmodellen mit Billionen Parametern zu beheben.
  2. Einführung der Blackwell-Architektur: Optimiert für GPU-Berechnungen auf Billionen-Parameter-Ebene; brachte neue Netzwerk-Switches der X800-Serie mit einem Durchsatz von bis zu auf den Markt 800Gb / s; stellte den GB200-Superchip, das GB200-NVL72-System, das DGX-B200-System und den DGX-SuperPOD-KI-Supercomputer der nächsten Generation vor.
sechs wichtige Ankündigungen
  • Veröffentlichung von Dutzenden generativen KI-Microservices für Unternehmen, die eine neue Möglichkeit zum Paketieren und Bereitstellen von Software für die einfache Bereitstellung benutzerdefinierter KI-Modelle mithilfe von GPUs bieten.
  • Ankündigung der bahnbrechenden Lithografie-Berechnungsplattform cuLitho von TSMC und Synopsys: cuLitho beschleunigt die Lithografie-Berechnung um das 40- bis 60-fache mithilfe verbesserter generativer KI-Algorithmen und bietet so erhebliche Unterstützung für die Entwicklung von 2-nm- und komplexeren Prozessen.
  • Einführung des humanoiden Roboter-Basismodells Project GR00T und des neuen humanoiden Robotercomputers Jetson Thor; Bedeutende Upgrades der Isaac-Roboterplattform, die Fortschritte bei der verkörperten Intelligenz vorantreiben. Jensen Huang interagierte auch mit zwei kleinen NVIDIA-Robotern von Disney Research.
  • Zusammenarbeit mit Apple zur Integration der Omniverse-Plattform in Apple Vision Pro und Bereitstellung der Omniverse Cloud-API für industrielle Softwaretools für digitale Zwillinge.

Neue KI-Chips auf dem Markt: 20.8 Milliarden Transistoren, 2.5-fache Trainingsleistung, 5-fache Inferenzleistung

Zu Beginn einer neuen Ära der generativen KI hat das explosionsartige Wachstum der KI-Computing-Anforderungen zur Entstehung der Blackwell-GPU geführt, die ihre Vorgänger-GPU Hopper als Mittelpunkt des KI-Wettbewerbs überholt hat. Jede Generation der NVIDIA-GPU-Architektur ist nach einem Wissenschaftler benannt, und die neue Architektur, Blackwell, ist eine Hommage an David Blackwell, das erste afroamerikanische Mitglied der National Academy of Sciences und einen angesehenen Statistiker und Mathematiker. Blackwell war für die Vereinfachung komplexer Probleme bekannt und seine unabhängigen Erfindungen wie „dynamische Programmierung“ und „Erneuerungstheorem“ fanden breite Anwendung in verschiedenen wissenschaftlichen und technischen Bereichen.

David Blackwell
David Blackwell

Huang erklärte, dass generative KI die prägende Technologie dieser Ära sei und Blackwell der Motor sei, der diese neue industrielle Revolution vorantreibe. Die Blackwell-GPU verfügt über sechs Kerntechnologien:

Generative KI ist die bestimmende Technologie
  1. Wird als „leistungsstärkster Chip der Welt“ bezeichnet: Integriert 20.8 Milliarden Transistoren mithilfe eines benutzerdefinierten TSMC 4NP-Prozesses, folgt dem Konzept des „Chiplet“-Designs mit einheitlicher Speicherarchitektur + Dual-Core-Konfiguration und verbindet zwei GPU-Chips, die durch Lithographievorlagen begrenzt sind, über eine 10 TB/s-interchipfähige NVHyperfuse-Schnittstelle eine einheitliche GPU mit 192 GB HBM3e-Speicher, 8 TB/s Speicherbandbreite und einer Einzelkarten-KI-Trainingsleistung von bis zu 20 PFLOPS.
Der leistungsstärkste Chip der Welt

Im Vergleich zur vorherigen Hopper-Generation führt Blackwells Integration von zwei Dies zu einer größeren Größe mit zusätzlichen 12.8 Milliarden Transistoren im Vergleich zur Hopper-GPU. Im Gegensatz dazu verfügte der vorherige H100 nur über 80 GB HBM3-Speicher und 3.35 TB/s Bandbreite, während der H200 über 141 GB HBM3e-Speicher und 4.8 TB/s Bandbreite verfügte.

  • Transformatormotor der zweiten Generation: Kombination neuer Mikrotensor-Skalierungsunterstützung und fortschrittlicher dynamischer Bereichsverwaltungsalgorithmen mit TensorRT-LLM- und NeMo Megatron-Frameworks, um Blackwell mit KI-Inferenzfunktionen mit FP4-Präzision auszustatten, Doppelberechnung und Modellskala zu unterstützen und gleichzeitig eine hohe Genauigkeit für Modelle mit gemischten Experten aufrechtzuerhalten.
Transformatormotor der zweiten Generation

Unter der neuen FP4-Präzision erreicht die KI-Leistung der Blackwell-GPU das Fünffache der von Hopper. NVIDIA hat die Leistung seiner CUDA-Kerne nicht bekannt gegeben; Weitere Details zur Architektur müssen noch bekannt gegeben werden.

Die KI-Leistung der Blackwell-GPU ist fünfmal so hoch wie die von Hopper
  • NVLink der fünften Generation: Um die Leistung für Modelle mit Billionen Parametern und gemischten Experten zu beschleunigen, das neue NVLink stellt jeder GPU eine bidirektionale Bandbreite von 1.8 TB/s zur Verfügung und unterstützt so eine nahtlose Hochgeschwindigkeitskommunikation zwischen bis zu 576 GPUs, die für komplexe große Sprachmodelle geeignet ist.
NVLink der fünften Generation

Ein einzelner NVLink-Switch-Chip besteht aus 50 Milliarden Transistoren im TSMC 4NP-Prozess und verbindet vier NVLinks mit 1.8 TB/s.

Ein einzelner NVLink-Switch-Chip besteht aus 50 Milliarden Transistoren
  • RAS-Engine: Die Blackwell-GPU verfügt über eine dedizierte Engine, die Zuverlässigkeit, Verfügbarkeit und Wartbarkeit gewährleistet, und verfügt gleichzeitig über Funktionen auf Chipebene, die KI-basierte prädiktive Wartung zur Diagnose und Vorhersage von Zuverlässigkeitsproblemen nutzen, um die Systemverfügbarkeit zu maximieren und die Skalierbarkeit für groß angelegte KI-Bereitstellungen zu verbessern, die wochenlang oder kontinuierlich laufen sogar Monate ohne Unterbrechung, wodurch die Betriebskosten gesenkt werden.
  • Sichere KI: Erweiterte Funktionen für vertrauliches Computing schützen KI-Modelle und Kundendaten, ohne die Leistung zu beeinträchtigen, und unterstützen neue lokale Schnittstellenverschlüsselungsprotokolle.
  • Dekompressionsmaschine: Unterstützung der neuesten Formate zur Beschleunigung von Datenbankabfragen und Bereitstellung höchster Leistung für Datenanalyse- und Data-Science-Aufgaben. AWS, Dell, Google, Meta, Microsoft, OpenAI, Oracle, Tesla und xAI sind alle bereit, Blackwell-Produkte einzuführen. Musk, CEO von Tesla und xAI, erklärte unverblümt: „Derzeit gibt es im Bereich KI nichts Besseres als NVIDIA-Hardware.“

Die Blackwell-Serie unterscheidet sich deutlich von der Betonung der Einzelchip-Leistung in früheren Versionen und konzentriert sich mehr auf die Gesamtsystemleistung mit einer unscharfen Unterscheidung in den GPU-Codenamen, wobei die meisten zusammenfassend als „Blackwell-GPU“ bezeichnet werden. Laut Marktgerüchten vor dieser Veröffentlichung könnte der Preis für B100 bei etwa 30,000 US-Dollar liegen, während der Preis für B200 bei etwa 35,000 US-Dollar liegen könnte; Betrachtet man diese Preisstrategie, bei der die Preise im Vergleich zu früheren Generationen um weniger als 50 % gestiegen sind, sich die Trainingsleistung jedoch um das 2.5-fache verbessert hat, was auf eine deutlich höhere Kosteneffizienz hindeutet. Wenn die Preise bei so bescheidenen Preiserhöhungen, aber erheblichen Verbesserungen der Trainingsleistung relativ stabil bleiben; Die Marktwettbewerbsfähigkeit der GPUs der Blackwell-Serie wird enorm sein.

Einführung neuer Netzwerk-Switches und KI-Supercomputer, die für GPU-Computing auf Billionen-Parameter-Ebene optimiert sind

Die Blackwell-Plattform umfasst neben dem grundlegenden HGX B100 den NVLink Switch, GB200-Superchip-Rechenknoten und Netzwerk-Switches der X800-Serie.

Die Blackwell-Plattform

Unter diesen ist die X800-Serie ein neu entwickelter Netzwerk-Switch, der auf groß angelegte KI-Operationen zugeschnitten ist und generative KI-Aufgaben auf Billionen-Parameter-Ebene unterstützen soll. Das Quantum-X800-InfiniBand-Netzwerk und das Spectrum-X800-Ethernet von NVIDIA gehören zu den weltweit ersten End-to-End-Plattformen mit Durchsatzkapazitäten von bis zu 800 Gbit/s und bieten eine fünfmal höhere Austauschbandbreitenkapazität im Vergleich zu Produkten der vorherigen Generation. Die Rechenleistung des Netzwerks wurde durch NVIDIAs SHARP-Technologie der vierten Generation um das Neunfache gesteigert, was zu einer Netzwerk-Rechenleistung von 5 TFLOPS führt. Zu den Early Adopters zählen unter anderem Microsoft Azure, Oracle Cloud Infrastructure und Coreweave.

Bei der X800-Serie handelt es sich um einen neu entwickelten Netzwerk-Switch

Die Spectrum-X800-Plattform ist speziell für mehrere Mandanten konzipiert und ermöglicht eine Leistungsisolierung der KI-Workloads jedes Mandanten. Dadurch wird die Netzwerkleistung für generative KI-Clouddienste und große Unternehmensbenutzer optimiert. NVIDIA bietet eine umfassende Softwarelösung, darunter Kommunikationsbibliotheken für die Netzwerkbeschleunigung, Software Development Kits und Verwaltungssoftware. Der GB200 Grace Blackwell-Superchip ist als Prozessor für generative KI-Aufgaben im Billionen-Parameter-Bereich konzipiert. Dieser Chip verbindet zwei Blackwell-GPUs mit einer NVIDIA Grace-CPU unter Verwendung der 900 GB/s schnellen NVLink-C2C-Verbindungstechnologie der fünften Generation. NVIDIA hat jedoch das genaue Modell der Blackwell-GPU nicht angegeben.

Dieser Chip verbindet zwei Blackwell-GPUs mit einer NVIDIA Grace-CPU

Huang präsentierte den GB200-Superchip und hob ihn als den ersten seiner Art hervor, der eine so hohe Rechendichte auf kompaktem Raum unterbringt, und betonte seinen vernetzten Speicher und die kollaborative Anwendungsentwicklung, die einer „glücklichen Familie“ ähneln.

Huang präsentierte den GB200-Superchip

Jeder GB200-Superchip-Rechenknoten kann zwei GB200-Superchips beherbergen. Ein einzelner NVLink-Switch-Knoten kann zwei NVLink-Switches unterstützen und so eine Gesamtbandbreite von 14.4 TB/s erreichen.

Jeder GB200-Superchip-Rechenknoten kann zwei GB200-Superchips beherbergen

Ein Blackwell-Rechenknoten besteht aus zwei Grace-CPUs und vier Blackwell-GPUs und liefert eine KI-Leistung von 80PFLOPS.

Ein Blackwell-Rechenknoten besteht aus zwei Grace-CPUs und vier Blackwell-GPUs und liefert eine KI-Leistung von 80PFLOPS.

Mit verbesserten GPU- und Netzwerkfunktionen kündigte Huang die Einführung einer neuen Recheneinheit an – der NVIDIA GB200 NVL72 – mit Multi-Node-Architektur, Flüssigkeitskühlung und Rack-Level-Systemen.

die NVIDIA GB200 NVL72

Der GB200 NVL72 funktioniert wie eine „Riesen-GPU“, die ähnlich wie eine Einzelkarten-GPU funktioniert, jedoch mit einer KI-Trainingsleistung von 720 PFLOPS und einer KI-Inferenzleistung, die ihren Höhepunkt bei 1.44 EFLOPS erreicht. Es verfügt über 30 TB schnellen Speicher und kann große Sprachmodelle mit bis zu 27 Billionen Parametern verarbeiten und dient als Schlüsselkomponente im neuesten DGX SuperPOD.

Der GB200 NVL72

Der GB200 NVL72 kann mit 36*GB200-Superchips (bestehend aus 72*B200-GPUs und 36*Grace-CPUs) konfiguriert werden, die über die NVLink-Technologie der fünften Generation miteinander verbunden sind und BlueField-3-DPU enthalten.

Der GB200 NVL72 kann mit 36 ​​GB200-Superchips konfiguriert werden

Jensen Huang stellte fest, dass weltweit derzeit nur wenige Maschinen auf EFLOPS-Niveau verfügbar sind; Diese Maschine besteht aus 600,000 Teilen mit einem Gewicht von 3000 Pfund und stellt ein „EFLOPS KI-System in einem einzigen Rack“ dar. Er teilte mit, dass das Training von GPT-MoE-1.8T-Modellen mit H100 zuvor 90 Tage dauerte und etwa 8000 GPUs 15 MW Strom verbrauchten; wohingegen die Verwendung von GB200 NVL72 jetzt nur 2000 GPUs und 4 MW Leistung erfordert.

GPT-MoE-1.8T

Für Billionen-Parameter-Modellläufe wurde der GB200 mehrdimensionalen Optimierungen unterzogen, was zu Durchsatzraten einzelner GPU-Token führte, die bis zu 30-mal höher sind als die H200 FP8-Präzision.

erreicht bis zu 30-mal höhere Präzision als H200 FP8

Im Hinblick auf große Sprachmodell-Inferenzaufgaben bietet der GB200 NVL72 eine 30-fache Leistungssteigerung im Vergleich zur gleichen Anzahl von H100s, bei 1/25 der Kosten und des Stromverbrauchs seines Vorgängers.

GB200 NVL72 bietet eine 30-fache Leistungssteigerung

Große Cloud-Anbieter wie AWS, Google Cloud, Microsoft Azure und Oracle Cloud Infrastructure unterstützen unter anderem den Zugriff auf den GB200 NVL72. Darüber hinaus hat NVIDIA das DGX B200-System vorgestellt – eine einheitliche KI-Supercomputing-Plattform für KI-Modelltraining, Feinabstimmung und Inferenzaufgaben. Das DGX B200-System stellt die sechste Generation der DGX-Serie dar und zeichnet sich durch ein traditionelles Rack-Design mit Luftkühlung aus; Es umfasst acht B200-GPUs und zwei Intel schneller als sein Vorgänger. Das System verfügt über eine fortschrittliche Vernetzung mit acht ConnectX-144-NICs und zwei BlueField-4-DPUs, die jede Verbindung mit einer Bandbreite von bis zu versorgen 400Gb / s Ermöglichung einer höheren KI-Leistung durch die Quantum-2 InfiniBand- und Spectrum-X-Ethernet-Plattformen. NVIDIA hat außerdem den KI-Supercomputer der nächsten Generation für Rechenzentren vorgestellt – DGX SuperPOD mit DGX GB200-Systemen, die Billionen von Parametern verarbeiten können und so einen kontinuierlichen Betrieb für groß angelegtes Training und Inferenz-Workloads für generative KI gewährleisten. Dieser DGX SuperPOD der neuen Generation besteht aus acht oder mehr DGX GB200-Systemen und verfügt über eine effiziente flüssigkeitsgekühlte Erweiterungsarchitektur auf Rack-Ebene, die eine KI-Rechenleistung von 11.5 EFLOPS bei FP4-Präzision sowie 240 TB schnellen Arbeitsspeicher liefert, der durch Erweiterungen auf Rack-Ebene noch weiter erweitert werden kann. Jedes DGX GB200-System beherbergt 200 GB100-Superchips. Im Vergleich zu H200-Einheiten, die große Inferenzaufgaben für Sprachmodelle ausführen, bietet der GBXNUMX-Superchip eine bis zu XNUMX-fache Leistungssteigerung.

Huang stellt sich Rechenzentren als zukünftige „KI-Fabriken“ vor, in denen sich die gesamte Branche auf die Fortschritte von Blackwell vorbereitet.

Huang stellt sich Rechenzentren als zukünftige KI-Fabriken vor

Einführung von Dutzenden generativen KI-Microservices auf Unternehmensebene zur Anpassung und Bereitstellung von Copiloten

NVIDIA baut seine auf CUDA und dem generativen KI-Ökosystem basierenden Vorteile durch die Einführung Dutzender generativer KI-Microservices auf Unternehmensebene weiter aus. Mit diesen Diensten können Entwickler generative KI-Copiloten auf NVIDIA CUDA-GPU-Installationen erstellen und bereitstellen.

NVIDIA CUDA GPU-Installationen

Huang erklärte, dass generative KI die Art und Weise verändert, wie Anwendungen programmiert werden, indem sie vom Schreiben von Software zum Zusammenstellen von KI-Modellen, dem Spezifizieren von Aufgaben, dem Bereitstellen von Arbeitsproduktbeispielen, dem Überprüfen von Plänen und Zwischenergebnissen übergeht. NVIDIA NIM dient als Referenz für die Inferenz-Microservices von NVIDIA, die aus den beschleunigten Rechenbibliotheken und generativen KI-Modellen von NVIDIA erstellt werden. Diese Microservices unterstützen branchenübliche APIs, laufen auf den großen CUDA-Installationen von NVIDIA und sind für neue GPUs optimiert.

Huang erklärte, dass generative KI die Art und Weise verändert, wie Anwendungen programmiert werden

Unternehmen können diese Microservices nutzen, um benutzerdefinierte Anwendungen auf ihren Plattformen zu erstellen und bereitzustellen, während sie gleichzeitig das vollständige Eigentum und die Kontrolle über ihr geistiges Eigentum behalten. NIM-Microservices bieten vorgefertigte Produktions-KI-Container, die von der Inferenzsoftware von NVIDIA unterstützt werden, sodass Entwickler die Bereitstellungszeiten von Wochen auf Minuten verkürzen können. NIM-Microservices können Modelle von NVIDIA, AI21, Adept, Cohere, Getty Images und Shutterstock sowie offene Modelle von Google, Hugging Face, Meta, Microsoft, Mistral AI und Stability AI bereitstellen.

NIM-Microservices

Benutzer haben Zugriff auf NIM-Microservices von Amazon SageMaker, Google Kubernetes Engine und Microsoft Azure AI, integriert in beliebte KI-Frameworks wie Deepset, LangChain und LlamaIndex. Um KI-Anwendungen zu beschleunigen, können Unternehmen CUDA-X-Mikrodienste nutzen, darunter NVIDIA Riva für benutzerdefinierte Sprach- und Übersetzungs-KI, NVIDIA cuOpt für Pfadoptimierung und NVIDIA Earth-2 für hochauflösende Klima- und Wettersimulationen. Eine Reihe von NVIDIA NeMo-Microservices für die Entwicklung benutzerdefinierter Modelle soll bald veröffentlicht werden.

Eine Reihe von NVIDIA NeMo-Mikrodiensten

Entwickler können NVIDIA-Microservices unter ai.nvidia.com kostenlos testen. Unternehmen können mit der AI Enterprise 5.0-Plattform von NVIDIA NIM-Microservices in Produktionsqualität bereitstellen.

Weiterentwicklung generativer KI-Algorithmen: Zusammenarbeit mit Top-Playern der Halbleiterindustrie, um eine neue Revolution im Fotolithographie-Computing auszulösen

Auf der letztjährigen GTC-Konferenz stellte NVIDIA nach vier Jahren geheimer Forschung für die Halbleiterfertigungsindustrie eine bahnbrechende Entwicklung vor: die Nutzung der revolutionären Fotolithografie-Rechnerbibliothek cuLitho, um Fotolithografie-Berechnungen um das 40- bis 60-fache zu beschleunigen und damit die physikalischen Grenzen der Produktion von 2 nm und mehr zu überschreiten fortschrittliche Chips. Die Mitarbeiter dieses Projekts sind wichtige Akteure der Halbleiterindustrie – der globale KI-Chipriese NVIDIA, der führende Halbleiterhersteller TSMC und der führende EDA-Riese Synopsys.

EDA-Gigant Synopsys

Die Computerlithographie ist für die Chipherstellung von grundlegender Bedeutung. Aufbauend auf den beschleunigten Prozessen von cuLitho wurde die Arbeitsgeschwindigkeit heute durch generative KI-Algorithmen weiter verdoppelt. Insbesondere erfordern viele Änderungen in Wafer-Herstellungsprozessen eine optische Proximitätskorrektur (OPC), was die Rechenkomplexität erhöht und zu Entwicklungsengpässen führt. Das beschleunigte Computing und die generative KI von cuLitho können diese Probleme lindern. Durch die Anwendung generativer KI können nahezu perfekte Maskenlösungen oder Ansätze zur Lösung von Lichtbeugungsproblemen erstellt werden, bevor die endgültige Maske mithilfe herkömmlicher physikalisch strenger Methoden abgeleitet wird – wodurch der gesamte OPC-Prozess um das Zweifache beschleunigt wird. Bei Chip-Herstellungsprozessen ist die rechnerische Lithographie die intensivste Arbeitsbelastung, die jährlich Milliarden von Stunden an CPUs verbraucht. Im Vergleich zu CPU-basierten Methoden verbessert die GPU-beschleunigte Fotolithographieberechnung von cuLitho die Chipherstellungsprozesse erheblich. Durch die Beschleunigung der Berechnungen können 2 NVIDIA H350-Systeme 100 CPU-Systeme ersetzen, wodurch die Durchsatzraten erheblich gesteigert und die Produktion beschleunigt werden, während gleichzeitig Kosten, Platzbedarf und Stromverbrauch gesenkt werden. „Wir setzen NVIDIA cuLitho bei TSMC ein“, erklärte TSMC-Präsident Wei Zhejia und betonte den erheblichen Leistungssprung, der durch die Integration von GPU-beschleunigtem Computing in den Workflow von TSMC erzielt wurde. Beim Testen von cuLitho an gemeinsamen Arbeitsabläufen der beiden Unternehmen erzielten sie eine 40,000-fache Beschleunigung bei Kurvenprozessen und eine fast 45-fache Verbesserung bei traditionellen Manhattan-Prozessen.

Einführung eines neuen humanoiden Roboter-Basismodells und Computers: Großes Update der Isaac Robot Platform

Neben generativer KI ist NVIDIA auch hinsichtlich der verkörperten Intelligenz optimistisch und hat das humanoide Roboter-Universalbasismodell Project GR00T und den neuen humanoiden Robotercomputer Jetson Thor auf Basis des Thor-SoC vorgestellt. Jensen Huang erklärte: „Die Entwicklung eines universellen humanoiden Roboter-Basismodells ist heute eines der spannendsten Themen im Bereich der KI.“ Mit GR00T betriebene Roboter können natürliche Sprache verstehen, schnelle Lernkoordination, Flexibilität und andere Fähigkeiten nachahmen, indem sie menschliches Verhalten beobachten, um sich an die reale Welt anzupassen und mit ihr zu interagieren. Huang Renxun demonstrierte, wie mehrere solcher Roboter verschiedene Aufgaben erledigen können.

Universelles Basismodell eines humanoiden Roboters Projekt GR00T

Jetson Thor verfügt über eine modulare Architektur, die hinsichtlich Leistung, Stromverbrauch und Größe optimiert ist. Dieser SoC umfasst eine Blackwell-GPU der nächsten Generation mit einer Transformer-Engine zur Ausführung multimodaler generativer KI-Modelle wie GR00T. NVIDIA entwickelt eine umfassende KI-Plattform für führende Unternehmen für humanoide Roboter wie 1X, Agility Robotics, Apptronik, Boston Dynamics, Figure AI, Fourier Intelligence, Sanctuary AI, Unitree Robotics und XPENG Robotics.

Darüber hinaus hat NVIDIA die Isaac-Roboterplattform erheblich verbessert, darunter generative KI-Basismodelle, Simulationstools und eine KI-Workflow-Infrastruktur. Diese neuen Funktionen werden im nächsten Quartal eingeführt. NVIDIA hat außerdem eine Reihe vorab trainierter Robotermodelle, Bibliotheken und Referenzhardware wie den Isaac Manipulator für Roboterarme mit Flexibilität und modularen KI-Funktionen sowie eine Reihe von Basismodellen und GPU-beschleunigten Bibliotheken wie Isaac Perceptor veröffentlicht, die erweiterte Funktionen wie Mehrkamera-Setups, 3D-Rekonstruktion und Tiefenwahrnehmung bieten.

Neueste Entwicklung der Omniverse-Plattform: Weiterentwicklung zu Apple Vision Pro, Einführung der Cloud-API

NVIDIA hat die Integration der Omniverse-Plattform mit Apple Vision Pro angekündigt.

NVIDIA hat die Integration der Omniverse-Plattform mit Apple Vision Pro angekündigt.

NVIDIA wird Omniverse Cloud in Form einer API anbieten, um auf industrielle Digital-Twin-Anwendungen abzuzielen. Entwickler können diese API nutzen, um interaktive Digital-Twin-Inhalte für industrielle Anwendungen auf VR-Headsets zu streamen.

NVIDIA wird Omniverse Cloud in Form einer API anbieten

Durch die Nutzung der API können Entwickler die Kerntechnologie von Omniverse problemlos direkt in bestehende Design- und Automatisierungssoftwareanwendungen für digitale Zwillinge oder in Simulationsworkflows zum Testen und Validieren autonomer Maschinen wie Roboter oder selbstfahrende Autos integrieren. Jensen Huang glaubt, dass alle hergestellten Produkte digitale Zwillinge haben werden und dass Omniverse ein Betriebssystem ist, das physikalisch realistische digitale Zwillinge erstellen und betreiben kann. Er glaubt: „Omniversum und generative KI sind beide grundlegende Technologien, die zur Digitalisierung eines Schwerindustriemarktes im Wert von bis zu 50 Billionen US-Dollar erforderlich sind.“

Omniversum und generative KI sind beide grundlegende Technologien

Die fünf neuen Omniverse Cloud APIs können einzeln oder in Kombination verwendet werden: USD Render (erzeugt vollständig Raytracing-RTX-Rendering von OpenUSD-Daten), USD Write (ermöglicht Benutzern das Ändern und Interagieren mit OpenUSD-Daten), USD Query (unterstützt Szenenabfragen und interaktive Szenen), USD Notify (Verfolgung von USD-Änderungen und Bereitstellung von Updates) und Omniverse Channel (Verbindung von Benutzern, Tools und der Welt für szenenübergreifende Zusammenarbeit).

Die fünf neuen Omniverse Cloud APIs können einzeln oder in Kombination verwendet werden

Die Omniverse Cloud API wird später in diesem Jahr auf Microsoft Azure als selbst gehostete API auf NVIDIA A10-GPUs oder als gehosteter Dienst auf NVIDIA OVX verfügbar sein.

Fazit: Das Main Event geht zu Ende, aber die Show muss weitergehen

Zusätzlich zu den oben erwähnten bedeutenden Ankündigungen teilte Huang in seiner Rede weitere Entwicklungen mit: NVIDIA hat eine 6G-Forschungs-Cloud-Plattform gestartet, die auf generativer KI und Omniverse basiert, um die Entwicklung drahtloser Kommunikationstechnologie im Telekommunikationssektor voranzutreiben. NVIDIAs Earth-2-Klima-Digital-Twin-Cloud-Plattform ist jetzt für interaktive hochauflösende Simulationen zur Beschleunigung von Klima- und Wettervorhersagen verfügbar. Er glaubt, dass die größten Auswirkungen der KI im Gesundheitswesen liegen werden. NVIDIA arbeitet bereits mit Unternehmen für bildgebende Systeme, Herstellern genetischer Sequenzierer und führenden Unternehmen für chirurgische Robotik zusammen und führt gleichzeitig eine neue Art biologischer Software ein.

Er glaubt, dass die größten Auswirkungen der KI im Gesundheitswesen liegen werden

In der Automobilindustrie wird BYD, das weltweit größte Unternehmen für autonomes Fahren, seine zukünftigen Elektrofahrzeuge mit NVIDIAs autonomem Fahrzeugprozessor (AV) der nächsten Generation DRIVE Thor auf Basis der Blackwell-Architektur ausstatten. DRIVE Thor wird voraussichtlich bereits im nächsten Jahr mit der Massenproduktion beginnen und eine Leistung von bis zu 1000 TFLOPS erreichen.

Es wird erwartet, dass DRIVE Thor mit der Massenproduktion beginnt

Huang erklärte: „NVIDIAs Kern liegt an der Schnittstelle von Computergrafik, Physik und künstlicher Intelligenz.“ Zum Abschluss seiner Rede skizzierte er fünf Kernpunkte: Neue Industrie, Blackwell-Plattform, NIMs, NEMO und NVIDIA AI Foundry, Omniverse und Isaac Robotics.

Das Wesen von NVIDIA liegt an der Schnittstelle von Computergrafik, Physik und künstlicher Intelligenz.

Der heutige Tag markiert einen weiteren Meilenstein, bei dem NVIDIA die Grenzen der KI-Hardware und -Software erweitert und gleichzeitig ein Festmahl rund um Spitzentechnologien wie KI, große Modelle, Metaversum, Roboter, autonomes Fahren, Gesundheitswesen und Quantencomputing präsentiert.

Die Keynote von Jensen Huang war zweifellos der Höhepunkt der GTC-Konferenz, aber die Spannung ging für die Teilnehmer vor Ort und die Remote-Teilnehmer gerade erst los!

Über 1000 Sitzungen, in denen die neuesten Fortschritte von NVIDIA und aktuelle Themen im Bereich Grenztechnologien behandelt werden, werden in Form von Vorträgen, Schulungen und Diskussionsrunden stattfinden. Viele Teilnehmer äußerten ihre Frustration darüber, dass sie aus Zeitgründen nicht an allen Sitzungen teilnehmen konnten, würdigten jedoch die Plattform, die GTC 2024 für den technischen Austausch in der KI-Branche bietet. Die Veröffentlichung neuer Produkte in diesem Zeitraum und der Technologieaustausch dürften sich positiv auf die akademische Forschung und die damit verbundenen Industrieketten auswirken. Es warten weitere Untersuchungen zu weiteren technischen Details der neuen Blackwell-Architektur.

Hinterlasse einen Kommentar

Nach oben scrollen