NVIDIA GB200 が出荷され、GB300 が登場します!

台湾の経済日報によると、NVIDIAは来年300月のGTCカンファレンスで次世代のGBXNUMX AIサーバー製品ラインを発表する予定だ。

最近、フォックスコンとクアンタは、このチャンスをいち早く掴むために、積極的にGB300の研究開発を開始した。NVIDIAはGB300の発注構成を暫定的に決定しており、フォックスコンは引き続き最大のサプライヤーであると理解されている。GB300は来年上半期に世界の競合他社に先駆けて市場に投入される予定だ。業界筋によると、クアンタとインベンテックもNVIDIAのGB300 AIサーバーの主要パートナーである。クアンタは受注シェアでフォックスコンに次ぐ第200位であり、インベンテックはGB300と比較して受注シェアを大幅に伸ばしており、次世代GBXNUMXのチャンスを活かす態勢を整えている。

GPU: B200 → B300

今年 300 月、NVIDIA はすべての Blackwell Ultra 製品を CoWoS-L テクノロジを採用した BXNUMX シリーズにリブランドし、高度なパッケージング ソリューションの需要を促進しました。

NVIDIAはBlackwell Ultraの全製品をB300シリーズにリブランドした。

パフォーマンスブースト

新しい B300 GPU は、従来の B1.5 に比べて浮動小数点演算性能 (FP4) が 200 倍向上しています。

TDP 熱出力

B300 GPU の消費電力は最大 1400W に達しますが、B1000 の約 200W と比較すると、大幅な増加です。この大きな電力を維持するには、電源と冷却システムの両方が対応する必要があります。

アップグレードされた液体冷却システム

液体冷却プレート + 強化された UQD クイックチェンジ コネクタ: 1400W の消費電力では空冷が不十分です。そのため、GB300 では液体冷却プレートを使用し、UQD クイックチェンジ コネクタをアップグレードして効率と信頼性を向上させています。

液体冷却

新しいキャビネット設計: キャビネットのレイアウト、パイプライン設計、冷却チャネルが再設計され、水冷プレート、液体冷却システム、UQD クイック接続コンポーネントの増加に対応できるようになりました。

HBM3eメモリの大幅なアップグレード

192 GB → 288 GB: GB192 時代の 3 GB HBM200 メモリを覚えていますか? 現在、各 B300 GPU は驚異的な 288 GB の HBM3e を誇ります。この大幅な増加は、基本的に広範なモデル トレーニングへの青信号であり、数千億のパラメータを持つ大規模モデルにとって非常に魅力的です。

8 層 → 12 層へのスタック: 以前の 8 層スタックと比較して、新しい構成では 12 層スタックが使用され、容量が増加するだけでなく、帯域幅も大幅に強化されます。この高い並列性により、ボトルネックなしでデータがスムーズに流れます。

ネットワークと伝送

ネットワーク カード: ConnectX 7 → ConnectX 8: GB300 は、ConnectX 7 ネットワーク カードから ConnectX 8 にアップグレードされました。このアップグレードにより、帯域幅、レイテンシ、信頼性が総合的に向上し、大規模クラスターでのシームレスなデータ転送が保証されます。

光モジュール: 800G → 1.6T: 800G から 1.6T へのアップグレードは、XNUMX 速から XNUMX 速へのシフトに相当します。HPC や AI トレーニングなど、大量のデータ インタラクションを伴うシナリオでは、この帯域幅の増加は命綱となります。

電力管理と信頼性

新機能: 標準化されたコンデンサ トレイと BBU: GB300 NVL72 キャビネットには、オプションのバッテリー バックアップ ユニット (BBU) システムを備えた標準化されたコンデンサ トレイが搭載されるようになりました。各 BBU モジュールのコストは約 300 ドルで、GB300 システム全体には約 5 つの BBU モジュールが必要であり、合計で約 1500 ドルになります。これはコストが高いように思えるかもしれませんが、高負荷、高電力の AI 環境で突然の停電を回避するために重要な投資です。

スーパーキャパシタの需要が高い: NVL72 ラック 300 つにつき、瞬間的な電流サージを処理してシステムを保護するために 20 個以上のスーパーキャパシタが必要です。価格は 25 つあたり 300 ~ XNUMX ドルで、かなりの出費となりますが、電力を大量に消費する GBXNUMX には必要です。

メモリの大革命

LPCAMM がサーバー ステージに登場: NVIDIA は初めて、サーバー コンピューティング ボードに LPCAMM (低電力 CAMM) 標準を導入しました。これまでは軽量ノート PC に搭載されていましたが、この「小さな男」は今やサーバーの高負荷要求に応え、その優れた能力を証明しています。サーバーに LPCAMM が導入されたことは、サーバーをより「スリムでスマート」にする傾向を示唆しており、サーバー設計がよりファッショナブルなアプローチに移行する可能性を示唆しています。

従来の DIMM に代わる?: LPCAMM は、よりコンパクトでエネルギー効率が高く、メンテナンスが容易なソリューションを提供します。将来的には、従来の RDIMM と LRDIMM に完全に代わる可能性があり、サーバー メモリ市場に大きな変化をもたらす可能性があります。LPCAMM が従来の DIMM に代わる場合、サーバー メモリの状況に大きな変化が起こる可能性があります。

NVIDIA GB300「Blackwell Ultra」は、AIコンピューティングのパワー上限を大幅に引き上げる予定です。GPUコアの強化、大規模なHBM3eメモリのサポート、冷却と電源管理の包括的なアップグレードはすべて、大規模モデルと大規模コンピューティングが将来の止められないトレンドであることを示しています。さらに、LPCAMMと1.6Tのネットワーク帯域幅の組み込みにより、クラウドデータセンターとスーパーコンピューティングセンターの効率がさらに向上します。

AI コンピューティング能力をめぐる「軍拡競争」はまだ始まったばかりであることは明らかです。ハードウェアとソフトウェアのエコシステムで主導権を握った企業が、AI 革命の次の波を支配することになるかもしれません。

コメント

上へスクロール