NVIDIA hat im März dieses Jahres den Blackwell B200 herausgebracht, der als der leistungsstärkste KI-Chip der Welt gilt. Wie unterscheidet er sich von den Vorgängermodellen A100, A800, H100 und H800?
Blackwell B200
Entwicklung der NVIDIA GPU-Architektur
Lassen Sie uns zunächst die Entwicklungsgeschichte der Rechenleistung von NVIDIA-KI-Beschleunigerkarten betrachten:
Die erste Generation von KI-Beschleunigerkarten heißt Volta, die erste Tensor-Core-Architektur von NVIDIA, die speziell für KI-Computing entwickelt wurde.
Die Tensor-Computing-Architektur der zweiten Generation heißt Turing, welches die Grafikkarte T4 darstellt.
Die Tensor-Computing-Architektur der dritten Generation Ampere ist endlich bei den uns vertrauteren Grafikkarten der A100-Serie angekommen.
Durch die Unterstützung von Chip-Prozess-Upgrades hat sich der SM einer einzelnen Karte auf 108 verdoppelt. Die Anzahl der Kerne im SM ist dieselbe wie bei V100, aber durch das Upgrade der Recheneinheitsschaltung kann der Kern 256 Gleitkommamultiplikationen und -akkumulationen in jedem Zyklus durchführen, was doppelt so viel ist wie bei der alten Architektur. Der 8-Bit-Gleitkomma-Rechenmodus (FP8) wurde hinzugefügt, um den damaligen Anforderungen des Deep Learning besser gerecht zu werden. Ein 16-Bit-Gleitkommakern kann als zwei 8-Bit-Gleitkommakerne berechnet werden, wodurch sich die Rechenleistung verdoppelt. Die Hauptfrequenz ist leicht auf 1.41 GHz gesunken. Daher erreicht die Rechenleistung der A100-Grafikkarte am Ende fast das Fünffache der Rechenleistung von V5, nämlich 100*108*8*256 GHz*1.41 = 2 TFLOPS (FP624).
Ampere Architektur
Die vierte Generation der Architektur Hopper ist die Grafikkarte der H100-Serie, die NVIDIA erst letztes Jahr herausgebracht hat, von OpenAI für das Training großer Sprachmodelle übernommen und aufgrund von Problemen mit der Rechenleistung verboten wurde.
Die Anzahl der SMs (132) dieser Grafikkarte hat sich im Vergleich zur vorherigen Generation nicht wesentlich erhöht, aber aufgrund der neuen Tensor Core-Architektur und des asynchronen Speicherdesigns hat sich die Anzahl der FP16-Multiplikationen und -Akkumulierungen, die ein einzelner SM-Kern in einem Zyklus ausführen kann, auf das 512-fache verdoppelt. Die Hauptfrequenz wurde leicht auf 1.83 GHz erhöht, und die Rechenleistung einer einzelnen Karte erreichte schließlich erstaunliche 1978 Tera FLOPS (FP8), was das erste Mal war, dass sie das PFLOPS-Feld (1.97 Peta FLOPS) erreichte.
Hopper-Architektur
Welche Fortschritte hat die fünfte Generation Architektur Blackwell auf dieser Rechenleistungsleiter gemacht? Laut öffentlichen Daten wird GB4 bei Einführung der neuen FP200-Dateneinheit in der Lage sein, bei Schlussfolgerungsaufgaben eine Rechenleistung von 20 Peta FLOPS zu erreichen. Wenn es wieder auf FP8 zurückgesetzt wird, Es sollte außerdem erstaunliche 10 PFLOPS haben, was einer etwa fünffachen Verbesserung gegenüber H5 entspricht.
Öffentliche Daten zeigen, dass die Hauptfrequenz des Blackwell-Prozessors 2.1 GHz beträgt. Vorausgesetzt, die Architektur wird nicht wesentlich aktualisiert, wird Blackwell 600 SMs haben, fast viermal so viele wie H100. Blackwell hat zwei Chips, also ist die Anzahl der SMs in einer Single-Die-Grafikkarte doppelt so hoch wie bei H100.
Man kann den Schluss ziehen, dass sich die Rechenleistung einer einzelnen GPU mit jeder Generation der Architektur-Aktualisierung um ein Vielfaches erhöht hat. Hier finden Sie zu Ihrer Information das Diagramm zur Entwicklung der Rechenleistung von der Volta-Architektur bis heute:
Diagramm zum Fortschritt der Rechenleistung
A100 vs. A800, H100 vs. H800
Warum brauchen wir A800, wenn wir A100 haben? Lassen Sie uns zunächst über den Hintergrund sprechen.
Im Oktober 2022 führten die Vereinigten Staaten neue Vorschriften zur Beschränkung des Halbleiterexports nach China ein, darunter auch Exportbeschränkungen für Hochleistungscomputerchips auf das chinesische Festland. Als Grenzwert werden die Leistungsmesswerte des A100-Chips von NVIDIA verwendet. Das heißt, dass Hochleistungs-Computerchips, die die beiden folgenden Bedingungen erfüllen, reguliert werden:
(1) Die E/A-Bandbreitenübertragungsrate des Chips beträgt mindestens 600 GBit/s.
(2) Die Summe der Bitlänge jeder Operation der „digitalen Verarbeitungseinheit, Rohrecheneinheit“ multipliziert mit der durch TOPS berechneten Rechenleistung ist größer oder gleich 4800TOPS.
Die Bedingungen machen es unmöglich, KI-Chips der Serien NVIDIA A100/H100 und AMD MI200/300 nach China zu exportieren.
Vergleich von Nvidia- und AMD-GPUs
Um die US-Beschränkungen einzuhalten und gleichzeitig die Bedürfnisse chinesischer Kunden zu erfüllen, hat NVIDIA den A800 auf den Markt gebracht, einen Ersatz für den A100. Den offiziellen Parametern zufolge reduziert der A800 hauptsächlich die Übertragungsrate von NVLink von 600 GB/s des A100 auf 400 GB/s, wobei die anderen Parameter im Wesentlichen mit denen des A100 identisch sind.
Im Jahr 2023 veröffentlichte NVIDIA die neue Generation der H100-GPU auf Basis des 4-nm-Prozesses mit 80 Milliarden Transistoren und 18,432 Kernen. Ebenso hat NVIDIA eine spezielle Version des H800 für den chinesischen Markt auf den Markt gebracht.
Chipvergleich
Tatsächlich hat A800 Anpassungen an der Verbindungsbandbreite vorgenommen, nämlich an der N-dimensionalen Kette und dem Verbindungsteil, und zwar von 600 G/s bei A100 auf 400 G/s. In anderen Aspekten wie doppelter, einfacher und halber Genauigkeit gibt es jedoch keine Änderungen an der KI-Rechenleistung.
Relativ gesehen hat H800 große Anpassungen vorgenommen. Es wurden nicht nur Anpassungen in Bezug auf Links vorgenommen, wobei 8 NVlinks beibehalten wurden und 400G bidirektionale Verbindungsbandbreite, reduzierte aber auch die doppelte Präzisionsberechnung auf Null. Dies ist für den HPC-Bereich kritisch, da die doppelte Präzisionsberechnungsleistung von FP64 direkt auf eins reduziert wird, was bedeutet, dass Sie es kaum nutzen können.
Als nächstes schauen wir uns an, welche Unternehmen von den Anpassungen besonders betroffen sein werden.
Schlachtfeld für große Modelle: Nach der Anpassung des A800 verringerte sich die Effizienz des Trainings großer Modelle. A800 SXMM verringerte hauptsächlich die Datenübertragungseffizienz zwischen GPU-Karten und die Bandbreite wurde um 33 % reduziert. Am Beispiel von GPT-3 erreicht es 175 Milliarden und erfordert mehrere GPUs für kombiniertes Training. Wenn die Bandbreite nicht ausreicht, sinkt die Leistung um etwa 40 %. In Anbetracht der Kosteneffizienz von A800 und H800 bevorzugen chinesische Benutzer immer noch den A800. Da die angepassten A800 und H800 eine verringerte Trainingseffizienz aufweisen und während des Trainings einige Daten zwischen den Karten austauschen müssen, führt ihre verringerte Übertragungsrate zu einer Verringerung ihrer Effizienz.
HPC: A800 und A100 haben die gleiche Dual-Precision-Rechenleistung, sodass sie im Bereich des wissenschaftlichen Hochleistungsrechnens nicht beeinträchtigt werden. Ärgerlich ist jedoch, dass H800 die Dual-Precision-Rechenleistung direkt auf 1 TFLOPS reduziert und daher nicht verwendet werden darf. Dies hat enorme Auswirkungen auf den Bereich des Super-Computing.
Daher sind die Auswirkungen offensichtlich. In den Bereichen AIGC und HPC könnten einige chinesische Unternehmen von ausländischen Unternehmen abgehängt werden. Dies ist vorhersehbar. Wenn wir also in einigen Fällen Rechenleistung benötigen, um eine bestimmte Leistung zu erreichen, kann die Investition höher sein. Darüber hinaus können wir uns nur eine Mantelgesellschaft im Ausland leihen und eine Niederlassung gründen, um die Aufgabe des Trainings großer Modelle im Ausland zu verlagern. Wir müssen nur die Trainingsergebnisse in China verwenden. Dies ist jedoch nur eine vorübergehende Lösung, insbesondere wenn das Risiko besteht, dass Daten das Land verlassen.
Zusammenfassung
Wie wir alle wissen, verhängen die Vereinigten Staaten immer strengere Beschränkungen für chinesische Chips, einschließlich GPUs. Im Jahr 2022 verboten die Vereinigten Staaten Hochleistungs-GPU-Chips, darunter A100, H100 usw., und im Jahr 2023 verboten sie A800, H800, L40, L40S und sogar die Desktop-Grafikkarte RTX 4090.
Daher passen chinesische Technologieunternehmen ihre Industriestrategien aktiv an, um sich darauf vorzubereiten, die Verwendung von Nvidia-Chips in Zukunft zu reduzieren und so die enormen Kosten zu vermeiden, die durch die ständige Anpassung der Technologie an neue Chips entstehen. Cloud-Anbieter wie Alibaba und Tencent haben einige Aufträge für fortschrittliche Halbleiter an lokale Unternehmen wie Huawei verlagert und sich stärker auf ihre intern entwickelten Chips verlassen. Unternehmen wie Baidu und ByteDance haben ebenfalls ähnliche Maßnahmen ergriffen. Offensichtlich haben sich chinesische Unternehmen entschieden, den Weg nach vorne durch einen dreigleisigen Ansatz zu erkunden: „ NVIDIA + selbst entwickelte + inländische Chips ".
Ähnliche Produkte:
- NVIDIA MMA4Z00-NS400 kompatibles 400G OSFP SR4 Flat Top PAM4 850 nm 30 m auf OM3/50 m auf OM4 MTP/MPO-12 Multimode FEC optisches Transceiver-Modul $650.00
- NVIDIA MMA4Z00-NS-FLT-kompatibles 800 Gbit/s Twin-Port OSFP 2x400G SR8 PAM4 850 nm 100 m DOM Dual MPO-12 MMF optisches Transceiver-Modul $850.00
- NVIDIA MMA4Z00-NS-kompatibles 800-Gbit/s-Twin-Port-OSFP-2x400G-SR8-PAM4-850-nm-100-m-DOM-Dual-MPO-12-MMF-optisches Transceiver-Modul $750.00
- NVIDIA MMS4X00-NM-kompatibles 800-Gbit/s-Twin-Port-OSFP-2x400G-PAM4-1310-nm-500-m-DOM-Dual-MTP/MPO-12-SMF-Optisch-Transceiver-Modul $1100.00
- NVIDIA MMS4X00-NM-FLT-kompatibles 800G-Twin-Port-OSFP-2x400G-Flat-Top-PAM4-1310-nm-500-m-DOM-Dual-MTP/MPO-12-SMF-optisches Transceiver-Modul $1200.00
- NVIDIA MMS4X00-NS400 kompatibles 400G OSFP DR4 Flat Top PAM4 1310 nm MTP/MPO-12 500 m SMF FEC optisches Transceiver-Modul $800.00
- Mellanox MMA1T00-HS kompatibles 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 optisches Transceiver-Modul $200.00
- NVIDIA MFP7E10-N010-kompatibel, 10 m (33 Fuß), 8 Fasern, geringe Einfügungsdämpfung, Buchse auf Buchse, MPO-Stammkabel, Polarität B, APC auf APC LSZH, Multimode OM3 50/125 $47.00
- NVIDIA MCP7Y00-N003-FLT-kompatibler 3 m (10 Fuß) 800G Twin-Port OSFP zu 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $275.00
- NVIDIA MCP7Y70-H002 kompatibles 2 m (7 Fuß) 400G Twin-Port 2x200G OSFP zu 4x100G QSFP56 Passives Breakout Direct Attach Kupferkabel $155.00
- NVIDIA MCA4J80-N003-FTF-kompatibles 3 m (10 Fuß) 800G Twin-Port 2x400G OSFP zu 2x400G OSFP InfiniBand NDR Aktives Kupferkabel, flache Oberseite an einem Ende und gerippte Oberseite am anderen Ende $600.00
- NVIDIA MCP7Y10-N002 kompatibler 2 m (7 Fuß) 800G InfiniBand NDR Twin-Port OSFP zu 2x400G QSFP112 Breakout DAC $200.00