大規模 GPU クラスターのハードウェア構成とネットワーク設計

経歴

OpenAI が ChatGPT を導入して以来、大規模言語モデル (LLM) は大きな注目を集め、急速に発展してきました。多くの企業がこのトレンドに対応するために LLM の事前トレーニングに投資しています。ただし、100B 規模の LLM をトレーニングするには、通常、数千の GPU を備えたクラスターなど、かなりの計算リソースが必要です。たとえば、Falcon シリーズ モデルは、180 A4096 GPU クラスターで 100B モデルをトレーニングし、70T トークンで約 3.5 日かかります。データ規模が拡大し続けると、コンピューティング能力の需要が高まります。たとえば、Meta は 3 つの 15K H24 クラスターで 100T トークンを使用して LLaMAXNUMX シリーズ モデルをトレーニングしました。

この記事では、大規模な GPU クラスターの構築に関係するコンポーネントと構成について詳しく説明します。さまざまな GPU タイプ、サーバー構成、ネットワーク デバイス (ネットワーク カード、スイッチ、光モジュールなど)、データ センター ネットワーク トポロジ (3 層、ファット ツリーなど) について説明します。具体的には、NVIDIA の DGX A100 SuperPod と DGX H100 SuperPod の構成、およびマルチ GPU クラスターで使用される一般的なトポロジについて説明します。

超大規模 GPU クラスターの構築は極めて複雑な作業であり、この記事ではその表面を少し触れたに過ぎないことに留意してください。実際のクラスターの展開では、ストレージ ネットワーク、管理ネットワーク、その他の側面が関係しますが、ここではそれらの詳細には触れません。さらに、ネットワーク トポロジの設計は、さまざまなアプリケーション シナリオによって異なります。ここでは、大規模 AI GPU クラスターで一般的に使用されるツリーベースのトポロジに焦点を当てます。最後に、GPU クラスターの保守と運用に不可欠な電源システムや冷却システムなどの重要なコンポーネントについては取り上げません。

関連するコンポーネント

GPU

下のグラフは、Ampere、Hopper、および最新の Blackwell シリーズ GPU を示しています。メモリ容量、計算能力、NVLink 機能が徐々に向上していることがわかります。

A100 -> H100: FP16 高密度コンピューティングは 3 倍以上増加しますが、消費電力は 400W から 700W にしか増加しません。

H200 -> B200: FP16 高密度コンピューティングが 700 倍になり、消費電力が 1000W から XNUMXW に増加します。

B200 FP16 の高密度コンピューティングは A7 の約 100 倍ですが、消費電力はわずか 2.5 倍です。

Blackwell GPU は FP4 精度をサポートし、FP8 の 4 倍の計算能力を提供します。FP8 と Hopper の FPXNUMX アーキテクチャを比較すると、さらに大幅な高速化が見られます。

GB200 は完全な B200 チップを使用しますが、B100 と B200 は対応するカットダウン バージョンであることに注意してください。

GB200 は完全な B200 チップを使用します

HGX サーバー

HGX は NVIDIA の高性能サーバーで、通常は 8 個または 4 個の GPU を備え、通常は Intel または AMD CPU と組み合わせられ、NVLink および NVSwitch を使用して完全な相互接続を実現します (NVL を除き、通常 8 GPU が NVLink 完全相互接続の上限です)とスーパーポッド)。

HGX A100 -> HGX H100 および HGX H200 と比べて、FP16 の高密度コンピューティング能力は 3.3 倍向上し、消費電力は 2 倍未満になりました。

HGX H100 および HGX H200 -> HGX B100 および HGX B200 と比較すると、FP16 の高密度コンピューティング能力は約 2 倍向上しましたが、消費電力は同様で、最大でも 50% 未満です。

注意すべきこと:

HGX B100 と HGX B200 のネットワークは基本的にアップグレードされておらず、IB ネットワーク カードは 8x400Gb/s のままです。

HGX B100 および HGX B200

NVIDIA DGX と HGX は、ディープラーニング、人工知能、大規模コンピューティングのニーズに合わせて設計された 2 つの高性能ソリューションです。ただし、設計と対象アプリケーションは異なります。

ディージーエックス:

一般消費者を対象としています。

プラグアンドプレイの高性能ソリューションを提供します。

NVIDIA のディープラーニング ソフトウェア スタック、ドライバー、ツールなどの包括的なソフトウェア サポートが付属しています。

通常は事前に構築されたクローズド システムです。

HGX:

クラウドサービスプロバイダーや大規模データセンター事業者を対象としています。

カスタムの高性能ソリューションの構築に適しています。

モジュール設計を採用しており、顧客は要件に応じてハードウェアをカスタマイズできます。

通常、ハードウェア プラットフォームまたはリファレンス アーキテクチャとして提供されます。

ネットワーキングに関して:

ネットワーキング

ネットワークカード

Mellanox の高速ネットワーク カードである ConnectX-5/6/7/8 に焦点を当てます。

これらのカードは、イーサネットと InfiniBand (IB) の両方をサポートします。

ConnectX-5 は 2016 年にリリースされ、その後 6 年に ConnectX-2020、7 年に ConnectX-2022、そして 8 年の GTC カンファレンスで Jensen Huang 氏によって発表された ConnectX-2024 がリリースされました (ただし、詳細な仕様はまだ公開されていません)。

各世代ごとに総帯域幅はほぼ倍増し、次の世代では 1.6 Tbps に達すると推定されています。

ネットワークカード

スイッチ

NVIDIAはイーサネットと (IB) これらのスイッチには数十または数百のポートが搭載されていることが多く、合計スループット (双方向スイッチング容量) は最大帯域幅にポート数を掛けて計算され、「2」は双方向通信を示します。

Spectrum-X シリーズ イーサネット スイッチ

Spectrum-X シリーズ イーサネット スイッチ

Quantum-X シリーズ InfiniBand スイッチ:

これらのスイッチは 400 Gb/s のスループットを実現します。

彼らは、ハイパフォーマンス コンピューティング (HPC)、AI、ハイパースケール クラウド インフラストラクチャに優れています。

Quantum-X スイッチは、複雑さとコストを最小限に抑えながら堅牢なパフォーマンスを提供します。

Mellanox スイッチに加えて、多くのデータ センターでは、従来のオプションと並行してモジュラー スイッチ (Arista 7800 シリーズなど) を採用しています。たとえば、Meta は最近、Arista 24 スイッチを使用して、100K H7800 GPU を搭載した 7800 つの GPU クラスターを構築しました。7816 シリーズには、3LR7816 や 3R576 などのモジュラー スイッチが含まれており、400 ポートの XNUMXG 高速帯域幅を提供できます。これらのスイッチは、効率的な内部バスまたはスイッチ バックプレーンを使用して、低遅延のデータ転送と処理を実現します。

モジュラースイッチ

光モジュール

光モジュールは光ファイバー通信において重要な役割を果たします。光モジュールは電気信号を光信号に変換し、光ファイバーを介して伝送します。これらのモジュールは、より高い伝送速度、より長い距離、および電磁干渉に対するより高い耐性を提供します。通常、光モジュールは、送信機 (電気信号を光信号に変換する) と受信機 (光信号を電気信号に変換する) で構成されます。

光モジュール

一般的に使用される 2 つの光モジュール インターフェイス タイプは次のとおりです。

SFP (Small Form-factor Pluggable): SFP モジュールは通常、単一の伝送チャネルとして動作します (1 本のファイバーまたは 1 組のファイバーを使用)。

QSFP (Quad Small Form-factor Pluggable): QSFP モジュールは複数の伝送チャネルをサポートします。QSFP-DD (Double Density) は 8 つのチャネルを使用することでポート密度をさらに高めます。

最近、400Gbpsや800Gbpsのような高帯域幅のシナリオ向けに特別に設計されたOSFP(Octal Small Form-factor Pluggable)パッケージが登場しました。OSFPモジュールには8つのチャネルがあり、QSFP-DDよりもわずかに大きいです。SFPおよびQSFPインターフェイスとは互換性がなく、コンバータが必要です。下の図は、 400Gbps OSFPモジュール 異なる伝送距離(100m、500m、2km、10km)に対応します。

さまざまな距離については、次のモジュールの選択を検討してください。

コア層とスパイン層の間: 10km 400G LR4 または 800G 2xLR4 を使用します。

スパイン層とリーフ層の間: 2km 400G FR4 を選択します。

リーフと ToR (ラック上部) の間: 500m 400G DR モジュールを選択します。

400GDR

データセンターネットワーク (DCN) トポロジ

基本概念

North-South トラフィック: データセンター外部から来るトラフィックを指します。インターネット関連のトラフィックだけでなく、異なるデータセンター間のトラフィックも含まれます。

東西トラフィック: 同じデータ センター内のトラフィックを指します。たとえば、データ センター内の異なるサーバー間の通信が含まれます。最近のデータ センターでは、このタイプのトラフィックが通常かなりの割合を占め、全体の 70% ~ 80% を占めることがよくあります。

一般的なデータセンター ネットワーク (DCN) トポロジを次の図に示します。

データセンターネットワーク

多層DCNアーキテクチャ

多層 DCN アーキテクチャ、特に 3 層 DCN アーキテクチャが普及しています。このツリーベースの構造は主に North-South トラフィックを管理し、次の XNUMX つの層で構成されます。

  • コア層: コア層は通常、大容量のルーターまたはスイッチで構成されます。
  • 集約層 (配布層): アクセス層デバイスを接続し、それらの間のルーティング、フィルタリング、トラフィック エンジニアリングを提供します。
  • アクセス レイヤー: アクセス レイヤーは、エンド ユーザー デバイスがネットワークに直接接続される場所であり、ユーザー デバイスのデータ センター ネットワークへの接続を容易にします。
多層DCNアーキテクチャ

このアーキテクチャでは、一般に、すべてのアクセス デバイスが同時に最大帯域幅で通信するわけではないと想定されています。したがって、階層が上がるにつれて割り当てる合計帯域幅を小さくするのが一般的な方法です。たとえば、アクセス レイヤーの合計帯域幅が 20 Gbps であるのに対し、ディストリビューション レイヤーの合計帯域幅は 1 Gbps しかない場合があります。極端な場合、すべてのデバイスが最大帯域幅で通信すると、ブロッキング、レイテンシの増加、予測できない遅延が発生する可能性があります。この状況は、オーバーサブスクリプションと呼ばれることが多く、比率 (例: 20:1) がオーバーサブスクリプション率を示します。

このアーキテクチャでは、通常、冗長性またはバックアップ メカニズムが存在します。コア層とディストリビューション層の間のスイッチが相互接続され、ループが発生する可能性があります。ループを回避するために、スパニング ツリー プロトコル (スパニング ツリー プロトコル、STP など) が使用されます。ただし、冗長性により帯域幅が無駄になる可能性もあります。

CLOSネットワーク

CLOS ネットワークは、1953 年に Charles Clos によって最初に提案された多段スイッチング ネットワーク構造です。もともと電話交換機に使用されていましたが、その原理と設計は現在、データ センターや高性能コンピューティングに広く適用されています。中心となるアイデアは、スケーラビリティを維持しながら、多段の相互接続構造を通じて高帯域幅と低遅延のネットワーク サービスを提供することです。

下の図に示すように、CLOS ネットワークは通常、次の 3 つのレイヤーで構成されます。

入力層: 外部入力信号の受信を担当します。

中間層: 入力層を出力層スイッチに接続します。

出力層: 最終的な宛先にデータを送信する役割を担います。

CLOSネットワーク

CLOS ネットワークには、次の機能と利点があります。

非ブロッキング: 理想的には、CLOS ネットワーク設計は非ブロッキング (収束なし) であり、スイッチのボトルネックによるデータ転送の遅延や損失が発生しないことを意味します。

スケーラビリティ: レイヤーとスイッチを追加することで、CLOS ネットワークはパフォーマンスを犠牲にすることなく、追加の入力および出力接続をサポートするように簡単に拡張できます。

冗長性: 複数のパスを備えた設計により、特定のスイッチや接続に障害が発生した場合でも代替ルートを介してデータを送信できるため、ネットワーク全体の信頼性が向上します。

柔軟性: CLOS ネットワークは、さまざまなシステム サイズとパフォーマンス要件に対応するためにさまざまな構成をサポートします。

ファットツリートポロジー

Fat-Tree データ センター ネットワーク (DCN) アーキテクチャは、CLOS ネットワークの特殊な形式です。高性能コンピューティングや大規模データ センターで広く使用されています。

このネットワーク トポロジは、1985 年に Charles Leiserson によって導入されました。従来の 3 層ツリー ネットワークとは異なり、Fat-Tree トポロジには次のような独自の機能があります。

すべてのレイヤースイッチは低コストのスイッチに置き換えられます。

階層が上に行くにつれて、リンクは「厚くなり」、ボトルネックを回避するためにレイヤー間の総帯域幅が一定に保たれます。

スイッチの数とその接続は各レイヤーで対称的であるため、デバイスのパスのバランスが確保され、単一障害点が最小限に抑えられます。

ファットツリートポロジー

エンドツーエンドの帯域幅の最大化: Fat-Tree アーキテクチャの主な目的は、エンドツーエンドの帯域幅を最大化することです。1:1 のオーバーサブスクリプション比を実現し、ブロッキングのないネットワークを実現します。

スイッチ数とポート構成:

K ポート Fat-Tree ネットワーク トポロジ (K はスイッチあたりのポート数) では、通常、すべてのスイッチのポート数は同じです。

2 層および 3 層の Fat-Tree トポロジを見てみましょう。

2 層 Fat-Tree トポロジ:

スパイン スイッチ: それぞれ K*(K/2) ポートを備えた K/2 スイッチ。

リーフ スイッチ: それぞれ K*K ポートを持つ K 個のスイッチ。

この構成では、非ブロッキング ネットワークで最大 KK/2 サーバーが許可され、3K/2 ネットワーク スイッチが必要になります。

3 層 Fat-Tree トポロジ:

コア スイッチ (スーパー スパイン スイッチ): (K/2)^2 個のスイッチ (それぞれ K*(K/2)^2 個のポートあり)。

スパイン スイッチ: 2*(K/2)^2 スイッチ、それぞれに K2(K/2)^2 ポートがあります。

リーフ スイッチ: 2*(K/2)^2 スイッチ、それぞれに K2(K/2)^2 ポートがあります。

この設計では、非ブロッキング ネットワークで最大 K2(K/2)^2/2 = K^3/4 台のサーバーをサポートし、5*K^2/4 台のスイッチが必要です。

2層および3層のFat-Treeトポロジ

2 層および 3 層の Fat-Tree トポロジの両方において、スイッチ数とポート構成は特定のパターンに従います。

用語にはバリエーションがあることに注意してください (例: Fat-Tree と Spine-Leaf) が、それらすべてを Fat-Tree の傘下で検討します。

NVIDIA DGX スーパーポッド – A100

DGX A100 システム

DGX A100 システムは、下の図に示すように、次のコンポーネントを備えた 6U 構成です。

8*A100 GPU: 各 GPU は 600 GB/秒の NVLink 帯域幅を提供します。

合計 NVSwitch 帯域幅: システムは、4.8 GB の HBM640 メモリ (GPU あたり 2 GB) を備え、合計 80 TB/秒の NVSwitch 帯域幅を実現します。

コンピューティング接続 (IB): ConnectX-8 ネットワーク カードが 6 枚あり、合計 8 * 200 Gbps の帯域幅を提供します。

ストレージ接続 (IB): ストレージ用の接続が 2 つ。

インバンド接続 (イーサネット): 内部通信に使用されます。

アウトバンド接続 (イーサネット): 管理目的。

DGC A100 システム

注目すべきは、NVLink 帯域幅はバイト単位で測定されるのに対し、ネットワーク帯域幅は通常ビットで測定されることです。このシステムでは、内部帯域幅は 4.8 TB/s に達しますが、全体的なネットワーク帯域幅は 1.6 Tbps であり、24 倍の差が生じます。

DGX A100 システム

スーパーポッドSU

図に示されている SuperPod SU (スケーラブル ユニット) は、DGX-SuperPod-A100 を構築するための基本的な構成要素として機能します。その主要コンポーネントは次のとおりです。

各 SU には、5 つのコンピューティング ラックと 1 つのリーフ ネットワーク ラックが含まれます。

各コンピューティング ラックには 4 つの DGX A100 システムと 2 つの 3U 電源分配ユニット (PDU) が収容されており、コンピューティング ラックあたり合計 32 個の A100 GPU が搭載されています。したがって、SU は 160 個の A100 GPU で構成されます。

Leaf ネットワーク ラックには、8 つのコンピューティング スイッチ (1U) と 2 つのストレージ スイッチ (1U) が含まれています。

コンピュート スイッチは QM8790 200 Gb/s IB スイッチを利用し、合計 320 個のポートを備えています。

160 個のポートが Compute Racks 内の ConnectX-6 ネットワーク カードに接続され、GPU あたり 200 Gbps を提供します。

残りの 160 個のポートは Spine Rack に接続します。

SUラックの高さ

シナリオによっては、ケーブル配線を簡素化するために、キャビネット内でトップオブラック (ToR) スイッチを使用する場合もあります。ただし、このアプローチではポートが無駄になる可能性があります。たとえば、電力制約と冷却の問題により、GPU サーバーは 1 つのキャビネットに制限されることが多く、ネットワーク カードの数が減ります。

GPUサーバー

一部の産業シナリオでは、4*A200 システム内で使用するネットワーク カードの数が少なくなる場合があります (例: 8×100 Gbps) が、全体的なネットワーク トポロジは同様のままであることに注意してください。

スパインラック

図に示すように、スパイン ラックには 20 台の 1U コンピューティング スイッチ (具体的には QM8790 200 Gb/s IB スイッチ) が含まれており、合計 800 ポートになります。残りのアウトオブバンド スイッチとインバンド スイッチは、ネットワーク管理に使用できます。

背骨ラックの高さ

DGX SuperPod 100ノード

下の図は、100 つの SU と追加の Spine Rack で構成される 5 ノードの DGX-SuperPOD を示しています。

各 SU には 8 つのリーフ コンピューティング スイッチ (QM7890、200 Gbps) が含まれます。

各ノードの 8 つの ConnectX-6 NIC は 8 つのリーフ コンピューティング スイッチに接続され、各 ConnectX-6 は 1 つの GPU に対応します。

リーフ コンピューティング スイッチには、SU 内の 20 個のノードに接続する 20 個のポートと、スパイン ラック内の 20 個のスパイン コンピューティング スイッチに接続する追加の 20 個のポートがあります。

100 ノード システムのファブリック トポロジを計算する

このトポロジは、800 個の GPU の非ブロッキング ネットワークを実現します (任意の XNUMX つの GPU が通信可能)。

異なる SU の GPU は、ConnectX-6 -> Leaf Switch -> Spine Switch -> Leaf Switch -> ConnectX-6 を介して接続します。

同じ SU 内だがノードが異なる GPU は、ConnectX-6 -> Leaf Switch -> ConnectX-6 経由で接続します。

同じノード内の GPU は NVLink を介して通信します。

QM800 を使用した 200 個の GPU (各 GPU は 8790 Gbps NIC ポートに対応) の実際的な制限は、2 レベルの Fat-Tree ネットワークです。800 個の GPU を超えると、3 レベルの Fat-Tree が必要になり、最大 16,000 個の GPU が可能になります。

DGX SuperPod 140ノード

すべてのコンピューティング スイッチ ポートが占有されている 100 ノード システムで GPU を拡張するには、2 層スイッチから 3 層スイッチに移行する必要があります。これには、コア コンピューティング スイッチ レイヤーの追加が含まれますが、QM8790 は引き続き 200 Gbps で使用されます。

図は、140 つの SU を備えた 7 ノードの SuperPod を示しており、合計 56 個のリーフ スイッチがあります。理想的には、56 個のリーフ スイッチには 56 個のスパイン スイッチと 28 個のコア スイッチが必要です。ただし、実際の設計では 80 個のスパイン スイッチが使用され、8 つのグループ (SG) に分かれています。各グループには 10 個のスパイン スイッチがあり、各コア グループ (CG) には 14 個のコア スイッチがあります。この対称 Fat-Tree トポロジにより、管理が簡素化されます。

SU 内の各リーフ スイッチは、対応する SG 内の 10 個のスパイン スイッチに接続します (リーフ スイッチあたり 20 ポート)。スパイン スイッチは、コア スイッチに交互に接続します (奇数位置は奇数コア スイッチに、偶数位置は偶数コア スイッチに)。

各コア スイッチは 40 個のスパイン スイッチに接続します。

140ノードGHXスーパーPOD

この構成は、140 * 8 = 1120 GPU クラスターをサポートし、各 GPU には ConnectX-6 200 Gbps NIC が搭載されています。

収納ラック

下の図に示すように、ストレージ ラックには 4 つのストレージ スイッチ (QM8790 200 Gbps IB スイッチ) が含まれており、合計 160 個のポートがあります。対応するストレージ ユニットもラック内に存在します。

収納ラックの高さ

DGX スーパーポッド ストレージ ファブリック

図は、140 ノード構成のストレージ ファブリックを示しています。これは 18 個のリーフ スイッチで構成されています。各 SuperPod SU (スケーラブル ユニット) には、2 個のリーフ ネットワーク ラックと 1 個のストレージ ラックが含まれています。さらに、8 個のスパイン スイッチがあります。

140ノードシステムのストレージファブリックトポロジ

追加構成

表 3 は、さまざまなノードのコンピューティング構成の詳細を示しています。

ファブリックスイッチとケーブルの数を計算する

表 4 にストレージ構成の概要を示します。

ストレージファブリック数

NVIDIA DGX スーパーポッド – H100

DGX H100 システム

図に示すように、DGX H100 システム (6U) には次のものが含まれます。

  • 8 個の H100 GPU (それぞれ 900 GB/秒の NVLink 帯域幅)。
  • 合計 7.2 TB/秒の NVSwitch 帯域幅と 640 GB HBM3 メモリ (GPU あたり 80 GB)。
  • 4 つの ConnectX-8 NIC に対応する 7 つの OSFP ポート (IB) は、8 * 400 Gbps の帯域幅を提供します。
  • スロット 1 と 2 には 2 つの ConnectX-7 NIC が搭載されており、2*400 Gbps の帯域幅を提供します。
  • インバンド接続 (イーサネット)。
DGX H100 システム
DGX H100 システム (6U)

8 つの GPU はすべて NVSwitch を介して完全に相互接続されています。内部帯域幅は 7.2 TB/s に達しますが、全体的なネットワーク帯域幅は 3.2 Tbps で、その差は 22.5 倍です。

スーパーポッドSU

図 2 は、SuperPod SU として知られる DGX-SuperPod-H100 の基本的な構成要素を示しています。

  • 各 SU には 8 つのコンピューティング ラックが含まれており、各ラックは 40 kW を提供します。
  • 各コンピューティング ラックには 4 つの DGX H100 システムと 3 つの PDU (電源分配ユニット) が収容されており、コンピューティング ラックあたり 32 個の H100 GPU が収容されます。したがって、SU には 256 個の H100 GPU が収容されます。
完全なシングルSUラックレイアウト

管理ラック

H100 GPU に対応する DGX SuperPod では、NVIDIA は A100 シリーズの Spine ラックおよび Storage ラックと同様の Management Rack を提供しています。図 3 に例を示します (具体的な構成は異なる場合があります)。

  • 32 リーフコンピューティングスイッチ (QM9700) はそれぞれ 64 個の 400 Gbps ポートを提供します。理論的には、ノード上の ConnectX-1024 NIC に接続できる 400 Gbps ポートは 7 個あります。残りの 1024 個のポートは 16 個の Spine Compute Switch に正確に接続され、1024 個の GPU に対応するノンブロッキング ネットワークを実現します。
  • 16 台のスパイン コンピューティング スイッチ (QM9700 も同様) が、32 台のリーフ コンピューティング スイッチのポートの半分に接続されます。
  • 8 リーフ ストレージ スイッチ (QM9700) がセットアップの一部です。
  • 4 つのスパイン ストレージ スイッチ (QM9700) で構成が完了します。
管理ラック構成

DGX SuperPod 127ノード

図 5 は、127 つのスケーラブル ユニット (SU) と関連する管理ラックを備えた 4 ノードの DGX SuperPod を示しています。理論上、管理ラックは 128 つの SU にわたって 4 ノードに接続できます。ただし、一部のリーフ スイッチは Unified Fabric Manager (UFM) に接続されているため、実際のノード数は 127 です。

127ノード

追加構成

表 3 に示すように、QM9700 スイッチを使用すると、2 レベルの Fat-Tree で最大 6464/2=2048 GPU (8 つの SU に相当) の非ブロッキング ネットワークを実現できます。3 レベルの Fat-Tree は、最大 6464*64/4=65536 GPU をサポートできます。実際には、構成には 64 の SU が含まれ、合計 16384 の GPU になります。

大型スーパーポッドコンポーネントcouts

業界向けGPUトレーニング クラスター ソリューション

2 レベル Fat-Tree トポロジ

一般的な 8 レベルの非ブロッキング Fat-Tree トポロジ (Spine-Leaf) は、8 GPU トレーニング マシンでよく使用されます。XNUMX 台のマシン内で、XNUMX つの GPU は NVLink + NVSwitch を介して完全に相互接続され、通信帯域幅はネットワーク帯域幅よりも大幅に高くなります。したがって、各 GPU の NIC を異なるスイッチに接続するのは通常の方法になります。

各グループには、マシン内の 8 つの GPU に対応する 8 つのリーフ スイッチが含まれます。

リーフ スイッチに 128 個のポートがあると仮定すると、64 個のポートが対応する GPU の NIC に接続され、グループあたり 64*8=512 個の GPU になります。リーフ スイッチ 1 は、すべてのノード 1 GPU の NIC に接続します。

この機能は、分散トレーニング戦略を設計するときに活用できます。

スパイン スイッチとリーフ スイッチ間のフル メッシュを実現するには、各リーフ スイッチを 64 つのスパイン スイッチに接続します。したがって、スパイン スイッチは 128 個あり、各スパイン スイッチは 16 個のリーフ スイッチすべてに接続します。これには XNUMX 個のグループが必要です。

要約すると、それぞれ 192 ポートを持つスイッチ最大 128 台で、512*16=8192 個の GPU をサポートできます。

2 レベル Fat-Tree トポロジ

FiberMall 2 レベル Fat-Tree トポロジ

64 レベル Fat-Tree の FiberMall 標準ソリューションは、前述のトポロジに似ています。ただし、XNUMX ポート スイッチを使用します。

FiberMall 2 レベル Fat-Tree トポロジ

64 ポート 400 Gbps スイッチにより、次のことが可能になります。

リーフ スイッチとスパイン スイッチは半分になります (それぞれ 64 と 32)。

GPU サポートは 1/4 に減少し、2*(64/2)*(64/2)=2048 GPU になります。

光モジュールの合計数には、スイッチ ポートと GPU NIC が含まれます: (64+32)*64+2048=8192。

3 レベルの Fat-Tree トポロジ

一般的な 3 レベルの非ブロッキング Fat-Tree トポロジ (SuperSpine-Spine-Leaf) は、2 レベルの Spine-Leaf を Pod として扱います。

Spine スイッチも SuperSpine スイッチに接続されるため、グループの数は半分になります。各ポッドには 64 個の Spine スイッチがあり、これは 4096 個の GPU に相当します。

複数のポッドでさらに 64 個の SuperSpine ファブリックを構築でき、各ファブリックは異なるポッドの Spine スイッチと完全に相互接続されます。たとえば、8 個のポッドの場合、各ファブリックに必要なのは 4 ポートの SuperSpine スイッチ 128 個だけです。

8 つのポッドの構成には以下が含まれます。

  • 合計 GPU: 4096*8=32768
  • スーパースパインスイッチ: 64*4=256
  • スパインスイッチ: 64*8=512
  • リーフスイッチ: 64*8=512
  • スイッチの合計: 256+512+512=1280
  • 光モジュール合計: 1280*128+32768=196608

理論上の最大数は 128 個の Pod をサポートし、次の数に相当します。

  • GPUs: 4096128=524288=2(128/2)^3
  • SuperSpine Switches: 64*64=4096=(128/2)^2
  • Spine Switches: 64128=8192=2(128/2)^2
  • Leaf Switches: 64128=8192=2(128/2)^2
  • Total Switches: 4096+8192+8192=20480=5*(128/2)^2

コメント

上へスクロール