NVIDIA GB200 スーパーチップと液冷サーバーおよびキャビネットの紹介

概要

NVIDIA GB200 は、NVIDIA の Blackwell アーキテクチャに基づく高度に統合されたスーパーコンピューティング モジュールです。このモジュールは、200 つの NVIDIA BXNUMX Tensor Core GPU と XNUMX つの NVIDIA Grace CPU を組み合わせて、これまでにない AI パフォーマンスを実現することを目指しています。

液体冷却の統合により、さまざまな業界関係者が協力してこの技術の実装に取り​​組んでいます。AI生成コンテンツ(AIGC)がAIコンピューティングチップの消費電力の増加を牽引しているため、サーバーにはより効率的な冷却方法が緊急に必要であると考えています。世界的なAIチップリーダーであるNVIDIA(液体冷却を備えた新しいGB200を搭載)とAIサーバーメーカーのSupermicro(2年度第24四半期に液体冷却ラックを拡張する予定)は、液体冷却技術を支持しています。さらに、2023年50月に2025大通信事業者が液体冷却技術に関するホワイトペーパーを発表し、2年以降までにプロジェクト規模の2027%を超える液体冷却の適用を想定していることからもわかるように、国内の業界連携が進んでいます。要約すると、液体冷却は上流のチップメーカー、サーバーメーカー、下流のIDCプロバイダー、通信事業者によって推進されており、液体冷却装置と新しい液体冷却データセンターの建設の需要を押し上げると予想されます。DellOroの予測によると、世界の液体冷却市場規模はXNUMX年までにXNUMX億ドルに近づくでしょう。

GH200 と GB200 の基本的な紹介

GH200 と GB200 のパラメータを比較すると、GB200 をより明確かつ直感的に理解できるようになります。

NVIDIAが200年にリリースするGH2023は、H200 GPUとGrace CPUを組み合わせたもので、200つのGrace CPUが200つのH96 GPUに対応します。H144 GPUは最大2GBまたは900GBのメモリを搭載できます。Grace CPUとHopper GPUは、1000GB/sの帯域幅を持つNVLink-CXNUMXCを介して相互接続され、対応する消費電力はXNUMXWです。

単一の NVIDIA GH200 チップの論理図

19年2024月200日、NVIDIAは毎年恒例のGTCで、最も強力なAIチップであるGB100を発表しました。H200と比較して、GB30の計算能力は100倍高く、特定のマルチモーダルタスクでは、その計算能力はH25の200倍に達し、エネルギー消費は200分の2に削減されます。GH900とは異なり、GB2700はXNUMXつのGrace CPUとXNUMXつのBlackwell GPUで構成されており、GPUの計算能力とメモリがXNUMX倍になっています。CPUとGPUは依然としてXNUMXGB/sの帯域幅を持つNVLink-CXNUMXCを介して相互接続されており、対応する消費電力はXNUMXWです。

GB200
NVIDIA GB200 スーパーチップ
GB200 は完全な B200 チップを使用します

GB2700 は 200W という高い電力消費量のため、効率的な冷却が必要です。GB200 NVL72 は、高度な計算負荷のワークロードに適した、マルチノードの液冷式ラックスケール拡張システムです。

さまざまなメーカーの液冷サーバーとキャビネット

GB200 には主に XNUMX つのキャビネット構成があります。

GB200 NVL72 (10+9+8 レイアウト)

GB200 NVL36x2 (5+9+4 レイアウト)

GB200 NVL72 キャビネット

GB200 NVL72 キャビネットの総消費電力は約 120kW です。標準 CPU キャビネットはラックあたり最大 12kW をサポートしますが、高密度の H100 空冷キャビネットは通常、ラックあたり約 40kW をサポートします。一般に、30kW を超える単一キャビネットの場合は液体冷却が推奨されるため、GB200 NVL72 キャビネットでは液体冷却ソリューションを採用しています。

GB200 NVL72 キャビネットは、18 個の 1U コンピューティング ノードと 9 個の NVSwitch で構成されています。各コンピューティング ノードは 1U の高さで、2 枚の Bianca ボードが含まれています。各 Bianca ボードには、1 個の Grace CPU と 2 個の Blackwell GPU が含まれています。NVSwitch トレイには、28.8 個の 5Gb/s NVSwitchXNUMX ASIC があります。

このキャビネット構成は現在、ほとんど導入されていません。これは、ほとんどのデータ センター インフラストラクチャが、直接液体冷却 (DLC) を備えていても、このような高いラック密度をサポートできないためです。

gb200 nvl72 キャビネット

GB200 NVL36x2 キャビネットは、相互接続された 200 つのキャビネットで構成されています。この構成は、GB18 ラックで最も一般的に使用されることが予想されます。各ラックには、36 個の Grace CPU と 72 個の Blackwell GPU が含まれています。72 つのキャビネットは、ノンブロッキングの完全な相互接続を維持し、NVL2 の 2 個の GPU 間の通信をサポートします。各コンピューティング ノードは 28.8U の高さで、5 枚の Bianca ボードが含まれています。各 NVSwitch トレイには、14.4 つの 14.4Gb/s NVSwitch18 ASIC チップがあり、各チップはバックプレーンに対して 1.6Gb/s、フロントプレーンに対して 36Gb/s です。各 NVSwitch トレイには、XNUMX 個の XNUMXT デュアル ポート OSFP ケージがあり、一対の NVLXNUMX ラックに水平に接続されています。

GB200 NVL36x2キャビネット

2024 年台北国際コンピューター ショーで、GB200 NVL72 が一般公開されました。Wiwynn、ASRock、GIGABYTE、Supermicro、Inventec などのほとんどのメーカーは、1U コンピューティング ノード サーバーを搭載したシングル キャビネット構成を展示しました。GIGABYTE、Inventec、Pegatron は、2U コンピューティング ノード サーバーも展示し、この構成を GB200 NVL36 と呼んでいます。

次回は各メーカーの水冷サーバーとキャビネットを紹介します。

NVIDIA

GTC 2024 で、NVIDIA は、NVLink で完全に相互接続された DGX GB200 NVL72 で構成されたラックを展示しました。キャビネット全体の重量は約 1.36 トン (3,000 ポンド) です。このシステムは、NVIDIA が 2023 年 XNUMX 月に展示した Grace-Hopper Superchip ラック システムのアップグレード版ですが、GPU の数は XNUMX 倍以上になっています。

フラッグシップシステム

主力システムは、消費電力が 120kW の単一ラックです。ほとんどのデータ センターは、ラックあたり最大 60kW までサポートできます。単一の 120kW ラックや 8MW に近い 1 ラックの SuperPOD を導入できない場合は、NVL36x2 キャビネット構成を使用できます。

NVIDIA DGX GB200 NVL72 フロント

キャビネットの上部には、52 つの 48 ポート Spectrum スイッチ (45 ギガビット RJ4 ポート + 28 つの QSFP100 XNUMXGbps アグリゲーション ポート) があります。これらのスイッチは、システムを構成するコンピューティング ノード、NVLink スイッチ、および電源フレームからのさまざまなデータを管理および送信します。

これらのスイッチの下には、キャビネット内の 120 つの電源フレームのうち 415 つがあり、残りの 60 つは下部にあります。これらの電源フレームは、60kW キャビネットに電力を供給します。設計にいくらかの冗長性が組み込まれているため、この要件を満たすには XNUMXV、XNUMXA の PSU が XNUMX つあれば十分であると推定されます。これらの電源の動作電流は XNUMXA を超える場合があります。各デバイスは、キャビネットの背面にあるバス バーを介して電力を供給されます。

NVIDIA スイッチ

上部1つの電源フレームの下には、3Uのコンピューティングノードが1台配置されています。各ノードのフロントパネルには、XNUMXつのInfiniBand NIC(フロントパネルの左と中央にXNUMXつのQSFP-DDケージ)があり、コンピューティングネットワークを構成しています。また、システムにはBlueField-XNUMX DPUが搭載されており、ストレージネットワークとの通信を担当しているとのこと。いくつかの管理ポートのほか、XNUMXつのEXNUMX.Sドライブトレイがあります。

各コンピューティングノードには2つのGrace Arm CPUが搭載されている

各コンピューティング ノードには 5.4 つの Grace Arm CPU が搭載されており、各 Grace CPU は 5.7 つの Blackwell GPU に接続されています。各ノードの消費電力は XNUMXkW ~ XNUMXkW の範囲で、熱のほとんどはダイレクト ツー チップ (DTC) 液体冷却によって放散されます。

NVSwitches

GB200プロト
NVSwitches
液体冷却

10 個のコンピューティング ノードの下には 9 個の NVSwitch があります。パネル上の金色のコンポーネントは、スイッチを挿入したり取り外したりするためのハンドルです。

パネル上の金色の部品は、スイッチを差し込んだり取り外したりするためのハンドルです。

各 NVLink スイッチには 2 つの NVLink スイッチ チップが含まれており、これも液体冷却を使用します。

スイッチ内部

キャビネットの下部、1 台の NVSwitch の下には、XNUMX 台の XNUMXU コンピューティング ノードがあります。

キャビネットの下部、1 台の NVSwitch の下には、XNUMX 台の XNUMXU コンピューティング ノードがあります。

キャビネットの背面には、ブラインド メイト バス バー電源設計が採用されており、各デバイスに冷却液と NVLink 接続を提供するコネクタも備えています。ブラインド メイト接続の信頼性を確保するため、各コンポーネントには移動のためのスペースが必要です。

ブラインドメイトバスバー電源設計

Jensen Huang 氏によると、冷却液は 2L/s の速度でラックに入り、入口温度は 25°C、出口温度は 20°C を超えます。

冷却液がラックに入る

NVIDIA は、キャビネットの背面で銅線 (光ファイバー) NVLink を使用すると、キャビネット 20 台あたり約 2kW の電力を節約できると述べています。すべての銅線ケーブルの合計長さは 3.2 マイル (XNUMX キロメートル) を超えると推定されます。そのため、NVLink スイッチはキャビネットの中央に配置され、ケーブルの長さを最小限に抑えます。

NVIDIA DGX GB200 NVL72 NVLink スパイン(光学部品なし)

スーパーマイクロ

スーパーマイクロ1
スーパーマイクロ2
スーパーマイクロ3
スーパーマイクロ4

Supermicro NVIDIA MGX™ システム

1U NVIDIA GH200 Grace Hopper™ スーパーチップ システム

スーパーマイクロ5

Foxconnの

18年2024月72日、NVIDIAのGTCカンファレンスで、Foxconnの子会社Ingrasysは、NVIDIAのGB200チップを採用したNVL72液冷サーバーを発表しました。このサーバーには、36個のNVIDIA Blackwell GPUとXNUMX個のNVIDIA Grace CPUが統合されています。

ジェンセン・ホアンとフォックスコンは良好な関係を築いており、サーバーなどの分野で複数の提携を行っています。フォックスコンの最新のスーパーAIサーバーであるDGX GB200は、今年後半に量産を開始します。GB200シリーズの製品はラック形式で出荷され、受注量は最大50,000万キャビネットに達すると予想されています。フォックスコンは現在、DGX GB200システムキャビネットシリーズで、DGX NVL72、NVL32、HGX B200のXNUMXつの主要な新製品を保有しています。これらは、今回のプラットフォーム世代交代の大きな勝者です。

AIラック

新世代の AI 液冷ラック ソリューションである NVIDIA GB200 NVL72 は、36 個の NVIDIA Blackwell ベースの GPU と 200 個の NVIDIA Grace CPU を含む 72 個の NVIDIA GB36 Grace Blackwell スーパーチップを組み合わせています。これらは第 XNUMX 世代の NVIDIA NVLink を介して相互接続され、単一の大型 GPU を形成します。

NVIDIA GB200 グレース・ブラックウェル
ハードウェア工場

クアンタクラウドテクノロジー(QCT)

クアンタクラウドテクノロジー(QCT)
クールラック

イベントで、QCTは1UモデルのQuantaGrid D75B-1Uを披露しました。NVIDIA GB200 NVL72システムフレームワークを採用したこのモデルは、72つのキャビネットに75台のデバイスを収容できます。D1B-200Uには、480つのGB5 Grace Blackwell Superchipsが搭載されています。QCTは、CPUが144GBのLPDDR3Xメモリにアクセスでき、GPUが1GBのHBM15e高帯域幅メモリを搭載し、どちらもコールドプレート液体冷却アクセサリを備えていることを強調しました。ストレージに関しては、この1Uサーバーは、2mm厚のE2280.S PCIe SSDを75枚とM.1 5.0 PCIe SSDを16枚収容できます。PCIeデバイス拡張用に、DXNUMXB-XNUMXUは、すべてPCIe XNUMX xXNUMXをサポートするダブル幅フルハイトフルレングスインターフェイスカードXNUMX枚とハーフハイトハーフレングスインターフェイスカードXNUMX枚を収容できます。

クアンタグリッドD75B-1U
クアンタグリッド D75B-1U AI

ウィウィン

NVIDIA の重要なパートナーである Wiwynn は、NVIDIA GB200 NVL72 規格に準拠した最初の企業の 2024 つです。GTC 200 で、Wiwynn は最新の AI コンピューティング ソリューションを披露しました。新しくリリースされた NVIDIA GB800 Grace Blackwell スーパーチップは、最新の NVIDIA Quantum-X800 InfiniBand および NVIDIA Spectrum-X200 Ethernet プラットフォームをサポートしています。これには、NVIDIA GB72 NVLXNUMX システムによって駆動される新しいラックレベルの液体冷却 AI サーバー ラックが含まれます。Wiwynn は、高速データ伝送、エネルギー効率、システム統合、高度な冷却技術における強みを活用しています。その目標は、データ センター エコシステムにおける新たなパフォーマンス、スケーラビリティ、多様性の要求に応えることです。

ウィウィン GB200 NVL72
溶液

Wiwynn はまた、UMS100 (ユニバーサル液体冷却管理システム) も発表しました。これは、新興の生成型 AI (GenAI) 時代における高まる高コンピューティング能力と効率的な冷却メカニズムの需要を満たすように設計された、高度なラックレベルの液体冷却管理システムです。この革新的なシステムは、リアルタイム監視、冷却エネルギーの最適化、迅速な漏れ検出、封じ込めなど、さまざまな機能を提供します。また、Redfish インターフェイスを介して既存のデータセンター管理システムとスムーズに統合できるように設計されています。業界標準のプロトコルをサポートし、さまざまな冷却分配ユニット (CDU) やサイドキャビネットと互換性があります。

ASUS

Computex Taipei 2024で、ASUSはいくつかのAIサーバーを発表しました。これには、新しいNVIDIA Blackwellサーバー、つまりB100、B200、GB200サーバーと、AMD MI300Xサーバーが含まれます。さらに、最大6WのCPU TDPを備えたIntel Xeon 500サーバーとAMD EPYC Turinサーバーもあります。

ハイライトは、NVIDIA GB200 NVL72 バージョンを搭載した ASUS ESC AI POD です。

ASUS ESC AIポッド
ASUS ESC AIポッド2
ASUS
ASUS NVIDIA GB200 NVL72

ASUS は、ノードの 1 つも公開しました。200U シャーシには、バス電源とデュアル液体冷却 GB200 ノードがあります。これらのノードには、コールド プレートで覆われた 48 つの GB12 Grace Blackwell Superchips が搭載されています。シャーシの中央には、Blackwell GPU に電力を供給するために 1 ボルト DC を 3 ボルト DC に変換するように設計された配電盤 (PDB) があります。さらに、この計算スロットには、E3240.S フォーム ファクター SSD 用のストレージ モジュールと、ダブル幅フル ハイト ハーフレングス フォーム ファクターの BlueField-XNUMX データ プロセッサ シリーズ BXNUMX カード XNUMX 枚が含まれています。

配電盤
インナーマニホールド
ESC AI ポッド

低コストの Arm コンピューティングと NVIDIA GPU を求めるユーザーには、ASUS ESC NM200-E2 として知られるデュアル NVIDIA Grace Hopper GH1 プラットフォームがあります。これは、XNUMX つの Grace Hopper CPU と GPU ユニットを XNUMX つのシステムに統合したものです。

ESC NM2 E1

Inventecで

このイベントで、Inventec は、Artemis 200U および 72U サーバーとともに、キャビネット レベルの GB1 NVL2 を展示しました。これらのサーバーには、200 つの GB7 Grace Blackwell Superchips、ConnectX-400 3Gb/s InfiniBand ネットワーク カード、および BlueField-400 XNUMXGb/s データ プロセッサが搭載されています。

インベンテック_1
インベンテック_6
  • キャビネットあたり120kW
  • パワーバスバー - 1400A
  • 8*33kW 電源シェルフ - 1+1 バックアップ
  • 液体冷却ブラインドプラグ + バスバーブラインドプラグ + 通信ブラインドプラグ
  • 「サイドカー」と呼ばれるリアキャビネット冷却ユニット

「サイドカー」は、サーバー キャビネットに付属するように設計された液体冷却キャビネットで、バイクのサイドカーに似ており、効果的な冷却ソリューションを提供します。

コメント

上へスクロール