NVIDIA GB200 分析: 相互接続アーキテクチャと将来の進化

2024 年 4 月 8 日

ブライアン

光ネットワークエンジニア

GB200 相互接続アーキテクチャの分析

NVLink 帯域幅の計算

NVIDIA では、NVLink 伝送帯域幅の計算とサブリンク/ポート/レーンの概念に多くの混乱があります。通常、単一の B200 チップの NVLink 帯域幅は 1.8TB/秒です。これは通常、メモリ帯域幅アルゴリズムを使用して計算され、単位はバイト/秒 (B/s) です。ただし、NVLink スイッチまたは IB/イーサネットスイッチおよびネットワークカードについては、ネットワーク帯域幅をビット/秒 (b/s) で計算する Mellanox の観点からのものです。 NVLinkの計算方法を詳しく説明しましょう。 NVLink 3.0 以降、4 つの差動ペアが「サブリンク」を形成します (NVIDIA では、定義がやや曖昧ですが、ポート/リンクという用語がよく使用されます)。これら 400 対の差動信号線には、受信方向信号と送信方向信号の両方が含まれています。ネットワーク帯域幅を計算する場合、400 Gbps インターフェイスとは通常、XNUMX Gbps のデータを同時に送受信できる能力を指します。

RX、TX各4ペア、計2ペアの差動信号線で構成されています。ネットワークの観点からは、これは単方向 400Gbps リンクですが、メモリ帯域幅の観点からは、100GB/秒のメモリアクセス帯域幅をサポートします。

NVLINK 5.0 インターコネクト帯域幅

Blackwell 世代は 224G Serdes を使用し、サブリンク伝送速度は 200Gbps * 4 (4 差動ペア) / 8 = 100GB/s、単方向ネットワーク帯域幅は 400Gbps です。 B200 には 18 個のサブリンクがあり、帯域幅は 100GB/s * 18 = 1.8TB/s になります。これは、ネットワークの観点から見ると、9 個の単方向 400Gbps インターフェイスに相当します。同様に、NVSwitch の紹介では、デュアル 200Gb/秒 SerDes が 400Gbp を構成すると述べています。

■ ポート。

明確にするために、次の用語を定義します。

B200 NVLINK 帯域幅は 1.8TB/秒で、それぞれ 18GB/秒の 100 ポートで構成され、224 つの差動ペアで構成され、各ポートには 2 つの 224Gbps Serdes が含まれています (4xXNUMXG PAMXNUMX は 400Gbps ポートごとの単方向帯域幅)。

NVLINK 4.0 インターコネクト

ホッパーに関しては、NVLINK 4.0 は 112G Serdes を使用し、100Gbps 対応の単一の差動信号ラインを備えているため、累積単一 NVLINK サブリンクは 4x100Gbps = 50GB/s になります。 NVLINK 4.0 をサポートするホッパー製品には 18 個のサブリンク (ポート) があるため、100 台の H50 は 18GB/s * 900 = 8GB/s をサポートします。図に示すように、4 枚のカードを備えた単一システムは接続に XNUMX つの NVSwitch を利用できます。

第 256 レベルのスイッチを追加して XNUMX カードのクラスタを作成することもできます。

拡張インターフェースは OSFP光モジュール16 本の差動信号ラインをサポートできるため、4 つの OSFP で XNUMX つの NVLINK ポートをサポートできます。

画像の NVLink スイッチには 32 個の OSFP 光モジュールコネクタが含まれており、合計 32 * 4 = 128 個の NVLINK 4 ポートをサポートします。

GB200 NVL72

GB200 NVL72 システムには次の仕様があり、主に NVLINK 相互接続に重点が置かれています。

各 GB200 には、72 つの XNUMX コア Grace ARM CPU と XNUMX つの Blackwell GPU が含まれています。

システム全体は、コンピューティングトレイとスイッチトレイで構成されます。各コンピューティングトレイには 200 つの GB4 サブシステムが含まれており、合計 XNUMX つの Blackwell GPU になります。

各スイッチトレイには 72 つの NVLINK スイッチチップが含まれており、合計 2 * 144 = 36 の NVLINK ポートを提供します。単一のスイッチチップの内部構造が示されており、上下に 7.2 個のポートがあり、28.8TB/秒の帯域幅を提供します。ネットワーク計算を使用すると、これは 51.2Tbps のスイッチング容量に相当し、現在の主要な XNUMXTbps スイッチチップよりわずかに小さいですが、これは SHARP (NVLS) 機能の実装によるものです。

ラック全体は 18 個のコンピューティングトレイと 9 個のスイッチトレイをサポートし、72 個の完全に相互接続された Blackwell チップを備えた NVL72 アーキテクチャを形成します。

ラック全体で 18 個のコンピューティングトレイと 9 個のスイッチトレイをサポートします

各 GB200 サブシステムには 2 * 18 = 36 個の NVLink5 ポートがあります。図に示すように、システムの外部相互接続は OSFP 光モジュールを使用せず、直接銅バックプレーン接続を使用します。

全体的な NVL72 相互接続トポロジは次のとおりです。

各 B200 には 18 個の NVLINK ポートがあり、18 つのスイッチトレイに 9 個の NVLINK スイッチチップがあります。したがって、各 B200 のポートは 72 つの NVSwitch チップに接続され、NVSwitch あたり合計 72 個のポートになります。これが、NVL72 システムが 200 個の BXNUMX チップすべてを完全に接続する方法です。

NVL576

NVL72 キャビネットでは、すべてのスイッチに、より大きな 16 層スイッチクラスターを形成するための追加のインターフェイスがなくなったことがわかります。NVIDIA の公式イメージによると、72 台のキャビネットが 8 列に配置されており、合計は正確に 576 * XNUMX = XNUMX 枚のカードの液体冷却クラスターですが、カード間の接続ケーブルは、スケールアップ NVLINK ネットワークインターコネクトではなく、スケールアウト RDMA ネットワークインターコネクトを介しているようです。

32,000 枚のカードクラスタの場合、NVL72 キャビネット、9 列の 4 キャビネット、72 つの NVL5 と 18 つのネットワークキャビネット、XNUMX 列の XNUMX キャビネットを介してサブポッドを形成し、RDMA スケールアウトネットワークを介して接続されます。

もちろん、これはいわゆる NVL576 ではありません。NVL576 が必要な場合、72 個の GB200 それぞれを 18 個の NVSwitch で構成する必要があり、これは単一のキャビネットに収まりません。公式では、NVL72 にはシングルキャビネットバージョンとデュアルキャビネットバージョンがあり、デュアルキャビネットバージョンでは各 Compute Tray に 200 つの GBXNUMX サブシステムしかないと述べられています。

一方、NVSwitch には予備の銅線ケーブルコネクタがあることに気付きました。これは、さまざまな銅線バックプレーン接続用にカスタマイズされている可能性があります。

これらのインターフェイスに、第 2 層 NVSwitch インターコネクト用の銅線インターコネクトバックプレーンの上に追加の OSFP ケージがあるかどうかは不明ですが、この方法には 1 つの利点があります。それは、シングルキャビネットバージョンはスケーラブルではないのに対し、デュアルキャビネットバージョンはスケーラブルであるということです。画像に示されています。

デュアルキャビネットバージョンには 18 個の NVSwitch トレイがあり、背中合わせに相互接続して NVL72 を形成できます。スイッチの数は 36 倍になりましたが、各スイッチは 576 カードクラスタへの将来の拡張に備えて 36 個のアップリンクポートを提供します。 2 つのキャビネットには合計 9*648*16 = 576 個のアップリンクポートがあり、NVL648 を形成するには 16 個のキャビネットが必要です。その結果、合計 10,368*9 = 36 個のアップリンクポートとなり、18 つの第 576 層スイッチプレーンで構築できます。、それぞれに XNUMX のサブプレーンがあり、XNUMX のスイッチトレイで形成されます。 NVLXNUMX の配線構造を以下に示します。

ビジネスの観点からNVL576を検討する

NVL576 のような大規模な単一の NVLink スケールアップネットワークの顧客が本当に存在するかどうかについては懐疑的です。AWS でさえ、クラウドサービスでは NVL72 のみを提供することを選択しました。主な問題は、576 層ネットワークアーキテクチャの信頼性とスケーラビリティの課題であり、システムの複雑さが高いため、NVLXNUMX は理想的なソリューションではありません。

一方、次世代の大規模モデルのコンピューティング要件を考慮する場合、メタ論文「大規模言語モデル用の低コストのネットワークを (パフォーマンスを犠牲にすることなく) 構築する方法?」はこれについて議論します。この論文では、NVLink ベースのスケールアップネットワークを「高帯域幅ドメイン (HBD)」と呼び、HBD 内の最適なカードの数を分析しています。

GPT-1T モデルの場合、K=36 と比較して K>8 の場合でもパフォーマンスの向上は依然としてかなり顕著ですが、K>72 から K=576 への拡張によるわずかな利点は、システムの複雑さの増加を正当化するものではありません。さらに、スケールアップ NVLINK ネットワークのサイズが大きくなるにつれて、HBD 間の RDMA 帯域幅によるパフォーマンスの利点が減少し始めます。最終的なバランスは、NVL72 と RDMA スケールアウトを組み合わせて使用し、32,000 枚のカードクラスタを構築することです。

相互接続システムの進化: シスコの物語

コンピューティング/メモリのボトルネックによる分散アーキテクチャ

初期の頃、Cisco のルータは単一の PowerPC プロセッサを使用して転送を実行していました。インターネットが爆発的に普及するにつれて、ルーティングテーブルの検索などのメモリを大量に消費する操作によってパフォーマンスのボトルネックが発生しました。これにより、データバスを介して複数のプロセッサを接続するプロセススイッチング/CEF のようなアプローチが徐々に登場しました。

これらの方法は、Pascal 世代のようにチップがバスを介して直接相互接続されていた初期の NVLINK 1.0 / NVLINK 2.0 に似ています。

スイッチファブリックの登場

1995 年、Nick Mckeown は論文「ギガビットスイッチルータの高速スイッチバックプレーン」の中で、CrossBar スイッチファブリックを使用してより大規模なギガビットルータをサポートすることを提案しました。これが後に Cisco のハイエンド 12000 シリーズルータとなりました。

これらのシステムのスイッチファブリックは、NVL8 ～ NVL72 システムを構築する現在の NVSwitch および NVSwitch トレイと概念的には同じです。これらはすべて、単一のチップがメモリの壁にぶつかったときに、複数のチップを相互接続して大規模なシステムを構築することを目的としています。

Cisco 12000 のシングルシャーシ設計は、中央にスイッチファブリックがあり、9 つのスイッチトレイを備えており、GB200 と似ており、上部と下部にそれぞれ 8 つのラインカードスロットがあり、GB200 のコンピューティングトレイに対応します。

ここでのコアテクノロジーは、VOQ (Virtual Output Queuing) 設計と iSLIP スケジューリングアルゴリズムです。モデルが All-to-All を実行すると、複数の B200 が同じ B200 に同時に書き込み、Head-Of-Line Blocking (HOLB) を引き起こす可能性があります。人間は、交差の前後にバッファ (入力キューと出力キュー) を巧みに追加します。

残念ながら、出力キューは帯域幅使用率を最大化できますが、N*R 速度が必要です。一方、入力キューは R 速度で処理できますが、HOLB が発生します。 HOLB によって制限される IQ スイッチの最大スループットは、58.6% と計算されます。

IQ HOLB 問題の簡単な解決策は、仮想出力キュー (VOQ) を使用することです。VOQ では、各入力ポートに各出力のキューがあり、R 速度のバッファリングを維持しながら HOLB を排除します。

もちろん、NVIDIA の NVLINK はクレジットベースの設計を採用しており、クレジット分配の調停は国内の GPU スタートアップにとって詳細な研究に値する領域です。

マルチステージアーキテクチャと光インターコネクトの進化

NVL576 は、1 年に導入された Cisco のキャリアルーティングシステム (CRS-2003) に似ています。

当時、シスコはインターネットバブル期の膨大な帯域需要に直面して、多段スイッチングネットワークシステムを構築しました。

スイッチトレイを使用して構築された単一キャビネット内の 3 ステージスイッチングネットワークは、拡張性のない現在の GB200 NVL72 と同等です。マルチキャビネット構造は NVL576 に対応します。当時、シスコは 16 枚のラインカードを備えた単一のキャビネットから、8 つのファブリックキャビネット + 72 枚のラインカードキャビネットを備えたシステムに拡張して、大規模な 1152 ラインカードクラスタを構築できました。シスコの内部接続でも光インターコネクトが使用されます。

シャーシ間の光コネクタが画像に示されています。

この時期に、現在 NVIDIA の主任研究員である Bill Dally が Avici を設立し、3D-Torus インターコネクトを使用してテラビット規模のルーターを構築したことは注目に値します。

3D-Torus 相互接続は Google の TPU を思い出させます。その後、ファーウェイはコアルーター製品 NE5000E を開発する前に、Avici のシステムを OEM し、NE5000 というブランド名を付けました。同時に、ジュニパーの出現により、コアルータドメインにおいてシスコに大きな圧力がかかりました。おそらく、NVIDIA の優位性も今後、さらなる課題に直面することになるでしょう。

一方で、MEMS ベースの光スイッチも同時代に導入されており、Google の現在の光スイッチの使用法といくつかの類似点があるようです。

NVIDIA の将来の進化

インターコネクトシステムに関する 2023 年の HOTI カンファレンスで、ビルダリー氏は「アクセラレータクラスター、新しいスーパーコンピューター」と題した基調講演を行い、オンチップネットワークとインターコネクトシステムの観点から XNUMX つの主要なトピックについて議論しました。

トポロジー：

CLOS/3D-トーラス/トンボ
ルーティング：
流量制御

デバイスの接続が異なれば、帯域幅と消費電力も異なります。

課題は、電力、コスト、密度、接続距離などの要素を考慮して、それらをどのように有機的に組み合わせるかです。

光インターコネクト

これらの寸法測定を通じて、Co-Package Optic DWDM が実行可能な選択肢になります。

光インターコネクトを構築するためのシステム概念図は以下のとおりです。

最終的な目標は、大規模な光インターコネクトシステムを構築することです。

この側面では、シスコが構築したマルチシャーシ CRS-1 システムとほぼ同一であることがわかります。GPU ラックは Cisco のラインカードシャーシに相当し、スイッチラックはシスコのファブリックシャーシに相当します。どちらも光インターコネクトと DWDM テクノロジーを使用して、接続の複雑さを軽減し、帯域幅を増やします。

チップアーキテクチャレベルでは、光学エンジンが相互接続用のチップレットとして使用されます。

相互接続構造については、Dragonfly トポロジの採用と OCS 光スイッチの利用への傾向が大きくなっています。

フロー制御アルゴリズムと輻輳制御に関しては、Bill は HOMA/NDP とアダプティブルーティングに似たメカニズムについて説明しました。新しいスイッチ機能を必要としない、より優れた MultiPath CC アルゴリズムがあるため、それほど複雑である必要はありません。

アルゴリズムと特殊なハードウェアの統合

一方、Transformer は 7 年前から存在しており、計算重視の演算子とメモリ重視の演算子のバランスをとる優れたアルゴリズムです。しかし、業界にはさらに洗練されたアルゴリズムがあるのでしょうか?

Monarch Mixer のような疎な注意モデル、Mamba/RMKV のような注意を必要としないモデル、さらに圏論、代数幾何学、代数トポロジーに基づいたアルゴリズムが研究されています。 Blackwell でサポートされている FP4/FP6 や、将来的には Log8 などのさまざまな数値形式もサポートされています。

歴史的に、シスコはまた、アルゴリズムと特別なハードウェアに依存して、シングルチップのパフォーマンスを徐々に向上させ、相互接続構造の複雑さを克服しました。彼らは、通常の DRAM 上の大規模なルーティングテーブル検索に TreeBitMap などのアルゴリズムを使用しました。

マルチコアおよびオンチップネットワークの開発に伴い、高性能 SPP/QFP/QFA ネットワークプロセッサが構築され、これらのテクノロジは AWS Nitro、NVIDIA BlueField、および Intel IPU DPU プロセッサに再び登場しました。

まとめ：

FibeMall は、最新の Blackwell GPU のインターコネクトアーキテクチャを分析し、「NVIDIA の Cisco Moment」で説明されているように、2023 つのテクノロジーの波の中でシングルチップのパフォーマンスが爆発的な需要に追いつけなくなったときに Cisco と NVIDIA が直面した分散システム構築とインターコネクトアーキテクチャを調査しました。また、Bill Dally の XNUMX 年の HOTI 基調講演を分析し、NVIDIA の将来の開発の道筋を明確に示しました。

ただし、インターネットバブルのピーク時に、Juniper や Avici などの企業が Cisco への挑戦者として現れ、NVIDIA もプロフェッショナル市場を支配する前に、その時代に挑戦者として 3Dfx を破ったことにも注目します。どの時代にもチャンスはあり、勝者となるのは、単により多くのリソースを積み上げた人ではなく、アルゴリズムとコンピューティング能力とハードウェアの組み合わせを通じてイノベーションを起こした人です。

挑戦者の観点から見ると、CUDA エコシステムは別として、コンピューティングコア自体の難易度はそれほど高くありません。最近ではジム・ケラー氏や韓国、日本の一部のHBMプレイヤーが活躍しており、BUDA+RISC-V+HBMが新たな新興勢力となるか注目される。

IB/NVLINK 相互接続システムを置き換えるという観点から見ると、イーサネットにはすでに 51.2Tbps のスイッチチップが搭載されており、SHARP のようなネットワーク内コンピューティングをサポートする HBM への高速イーサネット接続に基づく通信プロトコルは、すでに XNUMX 年前に NetDAM で設計されていました。