A100/H100/GH200 クラスタ: ネットワーク アーキテクチャと光モジュールの要件

従来のデータセンターは、主にデータセンター内の東西トラフィックの増加に対応するために、2021 層アーキテクチャからリーフスパイン アーキテクチャへの移行を経験しました。クラウドへのデータ移行プロセスが加速し続けるにつれて、クラウド コンピューティング データセンターの規模は拡大し続けています。これらのデータセンターで採用された仮想化やハイパーコンバージド システムなどのアプリケーションにより、東西トラフィックが大幅に増加しました。シスコの以前のデータによると、70 年には内部データセンター トラフィックがデータセンター関連トラフィックの XNUMX% 以上を占めました。 。

従来の 3 層アーキテクチャからリーフスパイン アーキテクチャへの移行を例にとると、リーフスパイン ネットワーク アーキテクチャで必要な光モジュールの数は最大で数十倍に増加する可能性があります。

ホワイトペーパー-c11-737022_1

大規模 AI クラスターのネットワーク アーキテクチャ要件

ネットワークのボトルネックを軽減する必要性を考慮すると、大規模 AI クラスターのネットワーク アーキテクチャは、高帯域幅、低遅延、ロスレス伝送の要件を満たしている必要があります。 AI コンピューティング センターは通常、ノンブロッキング ネットワークを特徴とするファットツリー ネットワーク アーキテクチャを採用しています。さらに、ノード間の相互接続のボトルネックを回避するために、NVIDIA は NVLink を採用して効率的な GPU 間通信を可能にします。 PCIe、NVLinkとの比較 offより高い帯域幅の利点が、NVIDIA の共有メモリ アーキテクチャの基盤として機能し、GPU 間の光インターコネクトに対する新たな需要を生み出します。

A100のネットワーク構造と光モジュールの要件

各 DGX A100 SuperPOD の基本的な展開構造は、140 台のサーバー (各サーバーには 8 つの GPU を搭載) とスイッチ (各スイッチには 40 のポートがあり、各ポートは 200G) で構成されます。ネットワーク トポロジは、InfiniBand (IB) ファット ツリー構造です。ネットワーク層数については、140台のサーバーに対して1120層のネットワーク構造(サーバー-リーフスイッチ-スパインスイッチ-コアスイッチ)を展開し、各層のケーブル本数はそれぞれ1124-1120-200本となります。サーバーとスイッチ間で銅線ケーブルが使用され、1 つの 0.15G 光モジュールに対応する 4 本のケーブルに基づくと、GPU:スイッチ:光モジュールの比率は 1:0.15:6 となります。全光ネットワークを使用する場合、比率は GPU:スイッチ:光モジュール = XNUMX:XNUMX:XNUMX になります。

開発者_c087f74
5ZCez_5CQB3B

H100 ネットワーク構造と光モジュールの要件

各 DGX H100 SuperPOD の基本的な導入構造は、32 台のサーバー (各サーバーには 8 つの GPU を搭載) と 12 台のスイッチで構成されます。ネットワーク トポロジは IB ファットツリー構造で、各スイッチ ポートは 400G で動作し、800G ポートに結合できます。 4SU クラスターの場合、全光ネットワークと XNUMX 層ファットツリー アーキテクチャを想定すると、 400G光学モジュール はサーバーとリーフ スイッチ間で使用され、800G 光モジュールはリーフ - スパイン スイッチとスパイン - コア スイッチ間で使用されます。必要な 400G 光モジュールの数は 3284=256、800G 光モジュールの数は 3282.5=640 です。したがって、GPU:スイッチ:400G 光モジュール:800G 光モジュールの比率は 1:0.08:1:2.5 となります。

rzcF8_94mA6j

200 層ファットツリー ネットワーク構造を使用して相互接続された 256 個のスーパーチップ GPU で構成される単一の GH1 クラスターの場合、両方の層が NVLink スイッチで構築されます。最初の層 (サーバーとレベル 96 スイッチの間) では 2 個のスイッチが使用され、レベル 36 では 32 個のスイッチが使用されます。各 NVLink スイッチには 800 個のポートがあり、各ポートの速度は 4.0G です。 NVLink 900 の双方向集約帯域幅が 450GB/秒、単方向集約帯域幅が 256GB/秒であるとすると、115,200 枚のカード クラスタ内のアクセス レイヤの合計アップリンク帯域幅は 800GB/秒になります。ファットツリー アーキテクチャと 100G 光モジュールの伝送速度 (800GB/s) を考慮すると、2,304G 光モジュールの合計要件は 200 ユニットです。したがって、GH1 クラスター内では、GPU と光学モジュールの比率は 9:200 になります。 H100 アーキテクチャを参照して、800 層ネットワーク構造の下で複数の GH1 クラスタを相互接続する場合、GPU から 2.5G 光モジュールまでの需要は 1:1.5 になります。 200 層ネットワークでは、800:1 になります。したがって、複数の GH9 を相互接続する場合、GPU と 2.5G 光モジュールの比率の上限は 1:(11.5+XNUMX) = XNUMX:XNUMX となります。

nvidia-grace-hopper-gh200-nvlink-ファブリック
NVIDIA GH スーパーチップ システム

要約すると、計算クラスタがネットワークのパフォーマンスを強化し続けるにつれて、高速光モジュールに対する需要はより柔軟になっています。 NVIDIA クラスタを例にとると、アクセラレータ カードによって適応されるネットワーク カード インターフェイス レートは、そのネットワーク プロトコル帯域幅と密接に関係しています。 A100 GPU は、最大単方向帯域幅 4.0Gb/s の PCIe 252 をサポートしているため、Mellanox HDR 252Gb/s Infiniband ネットワーク カードと組み合わせる場合、PCIe ネットワーク カードのレートは 200Gb/s 未満である必要があります。 H100 GPU は、最大単方向帯域幅 5.0Gb/s の PCIe 504 をサポートしているため、Mellanox NDR 400Gb/s Infiniband ネットワーク カードとペアリングできます。したがって、A100 から H100 にアップグレードすると、対応する光モジュールの需要は 200G から 800G (400 つの 800G ポートを 200 つの 450G に結合) に増加します。一方、GH800 はカード間接続に NVLink を使用し、単方向帯域幅が 100GB/秒に増加し、5.0G 需要への弾力性がさらに高まります。 H6.0 クラスターが PCIe 1024 から PCIe 800 にアップグレードされ、最大単方向帯域幅が 800Gb/s に増加したとします。その場合、アクセス レイヤのネットワーク カード レートを 800G まで上げることができます。これは、アクセス レイヤが XNUMXG 光モジュールを使用できることを意味し、クラスタ内の XNUMXG 光モジュールに対応する XNUMX 枚のカードの需要弾力性が XNUMX 倍になります。

Meta の計算クラスター アーキテクチャとアプリケーションは、LLaMA モデルをトレーニングするための「Research SuperCluster」プロジェクトを以前にリリースしました。 RSC プロジェクトの第 2,000 フェーズでは、Meta は 100 個の A16,000 GPU を含む合計 100 台の A2,000 サーバーを導入しました。このクラスターには 48,000 個のスイッチと 96,000 個のリンクが含まれており、これは 200 層 CLOS ネットワーク アーキテクチャに対応します。完全な光ネットワークが採用された場合、100 個の 1G 光モジュールに相当します。これは、A6 GPU と光モジュールの比率が 100:XNUMX であることを意味し、以前に計算された AXNUMX アーキテクチャと一致します。

メタネットワーキングスケール-32k-スケール-トポロジー

Meta は、H3 GPU を使用して LLaMA100 のトレーニング インフラストラクチャを実装しました。これには、InfiniBand と Ethernet の両方を備えたクラスターが含まれており、最大 32,000 GPU をサポートできます。 Meta が公開した情報によると、イーサネット ソリューションの場合、コンピューティング クラスターは依然として統合されたリーフ/スパイン ネットワーク アーキテクチャを採用しています。各ラックには、2 つのトップオブラック (TOR) スイッチ (Wedge 1 を使用) に接続された 400 台のサーバーが含まれており、クラスター内には合計 252 台のサーバーが含まれます。クラスタ スイッチは Minipack2 OCP ラック スイッチを使用しており、合計 18 台のクラスタ スイッチがあり、コンバージェンス比は 3.5:1 になります。 18 個のアグリゲーション レイヤ スイッチ (Arista 7800R3 を使用) があり、コンバージェンス比は 7:1 です。クラスタは主に 400G 光モジュールを使用します。クラスター アーキテクチャの観点から見ると、イーサネット ソリューションには、イーサネット アライアンスのような組織の進歩に注意しながら、ノンブロッキング ネットワークの構築を促進するためにプロトコル レベルでのさらなるブレークスルーが依然として必要です。

AWS は、H2 GPU と独自の Trainium ASIC ソリューションを含む、第 100 世代の EC2 Ultra Cluster を発売しました。 AWS EC5 Ultra Clusters P100 インスタンス (つまり、H3200 ソリューション) は、20,000 Gbps の総ネットワーク帯域幅を提供し、最大 1 GPU のネットワーク容量を持つ GPUDirect RDMA をサポートします。 Trn16n インスタンス (独自の Trainium ソリューション) は、1600 Gbps の総ネットワーク帯域幅を提供する 30,000 カード クラスターを備えており、ネットワーク接続された最大 6 個の ASIC をサポートし、XNUMX EFlops のコンピューティング能力に相当します。

aws-ec2-ultrascluster-ブロック図
画像2

AWS EC2 Ultra Clusters カード間の相互接続には、NVLink (H100 ソリューション用) と NeuronLink (Trainium ソリューション用) が使用され、クラスター相互接続には独自の EFA ネットワーク アダプターが使用されます。 Nvidia のソリューションと比較すると、AWS 独自の Trainium ASIC クラスターの推定アップリンク帯域幅はカードあたり 100G (合計帯域幅 1600G / 16 枚のカード = 100G) であるため、現時点では 800G AWS のアーキテクチャにおける光モジュール。

Google の最新のコンピューティング クラスターは、4 次元トーラス状に構成された TPU アレイで構成されています。 XNUMX 次元トーラスは XNUMX つの隣接する TPU に接続された各 TPU に対応し、XNUMX 次元トーラスは XNUMX つの直交するリングで構成され、XNUMX つの隣接する TPU に接続された各 TPU に対応します。 Google の TPUvXNUMX は XNUMX 次元のトーラスを表し、各 TPU が XNUMX つの隣接する TPU に接続されます。

Google-Machine-Learning-Supercomputer-With-An-Optically-Reconfigurable-Interconnect-_Page_11-746x420
双方向CWDM4光トランシーバー

これに基づいて、各キャビネット内に 3=444 個の TPU の 64D ネットワーク構造が構築されます。 3D 構造の外部部分は OCS に接続され、4096 個のキャビネットと 64 個の OCS スイッチに対応する 48 個の TPU の相互接続により、48*64=6144 個の光モジュールに相当します。内部では DAC 接続 (18000 ケーブル) が使用され、TPU と光モジュールの比率は 1:1.5 になります。 OCS ソリューションでは、光モジュールは波長分割多重ソリューションを採用し、サーキュレータを追加してファイバの数を減らす必要があり、光モジュール ソリューションにはカスタマイズされた機能 (800G VFR8) が備わっています。

コメント

上へスクロール