パフォーマンスを最大限に引き出す: InfiniBand のパワー

クラスターの有効な計算能力は、GPU 使用率とクラスターの線形高速化に分けられます。GPU 使用率は、チップ アーキテクチャ、プロセス テクノロジ、メモリ、I/O ボトルネック、カード間相互接続帯域幅、トポロジ、消費電力などの要因によって影響を受けます。一方、「クラスターの線形高速化」は、ノード通信機能、並列トレーニング フレームワーク、およびリソース スケジューリングに依存します。

CPU

効率的なクラスター ネットワーキング ソリューションを設計することは、低レイテンシ、高帯域幅、ブロックされていないノード間通信を実現するために不可欠です。これにより、複数のマシンと GPU 間の通信オーバーヘッドが削減され、最終的に有効な GPU コンピューティング時間 (GPU コンピューティング時間 / 全体のトレーニング時間) が向上します。China Mobile Research Institute の「AI 大規模モデルのネットワーク進化に関するホワイト ペーパー」によると、AI 大規模モデルはネットワーク インフラストラクチャに新しい要件をもたらします。

  1. 超大規模ネットワーク: パラメータ数が数十億から数兆に達​​する AI 超大規模モデルでは、極めて高い計算能力が求められます。その結果、大量のハードウェアとスケーラブルなネットワーク容量が必要になります。『超千枚カード クラスター向けの新しいインテリジェント コンピューティング テクノロジに関するホワイト ペーパー』によると、最適な計算効率、データ処理能力、数千枚のカードのハードウェア レベルの相互接続、およびネットワークの可用性を実現することが、AI コンピューティング センターにとって重要なトピックになります。
top
  • 超高帯域幅要件: マルチ GPU クラスターでは、サーバー内通信とサーバー間通信の両方が不可欠です。サーバー内通信には、モデルの並列処理によって生成される All Reduce 集合通信データが含まれ、その量は数百ギガバイトに達します。したがって、GPU 内通信の帯域幅と方法は、エンドツーエンドのフロー完了時間に大きく影響します。パイプライン並列処理、データ並列処理、テンソル並列処理などのモードでのサーバー間通信も、同様のデータ量に達します。複雑な集合通信パターンには、多対 1 通信と 1 対多通信が同時に含まれます。したがって、GPU 間の高速相互接続は、単一ポート帯域幅、利用可能なノード間リンク、および全体的なネットワーク帯域幅にとって不可欠です。
  • 超低遅延: データ通信の遅延は、静的コンポーネントと動的コンポーネントで構成されます。静的遅延は、転送チップの機能と伝送距離によって異なります。ネットワーク トポロジと通信データ量が固定されている場合、この部分の遅延は比較的一定のままです。動的遅延には、スイッチ内部のキューイング遅延とパケット損失再送信遅延が含まれます。これらは通常、ネットワークの輻輳、パケット損失、ジッターによって発生します。
  • 超高安定性と自動展開: カードの数が大幅に増加すると、ネットワークの安定性がクラスター ネットワークの「最も弱いリンク」になります。ネットワーク障害とパフォーマンスの変動は、ノード間の接続とリソース使用率の両方に影響します。

RDMA (リモート ダイレクト メモリ アクセス) を使用すると、複数のマシンと GPU 間のエンドツーエンドの通信遅延を削減できます。従来のネットワークでは、データ転送には複数の手順が含まれます。まず、ソース システムのカーネルからネットワーク スタックにデータをコピーし、次にネットワーク経由で送信します。最後に、受信側で複数の手順を経て、データがターゲット システムのカーネルにコピーされます。RDMA はオペレーティング システム カーネルをバイパスし、2 つのホストが別のホストのメモリに直接アクセスできるようにします。現在、主な RDMA テクノロジは、InfiniBand と RoCEvXNUMX (RDMA over Converged Ethernet) です。

伝統的およびRDMA

InfiniBand (IB) と RDMA over Converged Ethernet (RoCE) は、2 つの主要なネットワーク テクノロジーです。IB は低遅延と高帯域幅に優れ、イーサネットはオープン性とコスト効率に優れています。広く採用され成熟している RoCE は、優れた互換性を備えたさまざまなシステムを相互接続するための基礎として機能します。また、複数のベンダーのメリットも享受できるため、コスト面でのメリットもあります。

対照的に、IB は、HPC クラスターで一般的に使用される、高帯域幅、低レイテンシ、信頼性の高いネットワーク相互接続に特化しています。ただし、ベンダーのサポートが限られているため、導入コストは RoCE よりも高くなります。

RoCE は確実な選択肢ですが、InfiniBand は優れたソリューションとして際立っています。特に、スーパーコンピューティング クラスターでは、IB は依然として人気があり効率的な相互接続です。それでも、コストとオープン性を考慮して、多くのクラウド コンピューティング企業は、独自の IB ソリューションよりもオープン ソースのイーサネット スイッチを選択しています。AWS のシニア エンジニアである Brian Barrett 氏によると、専用の IB ネットワークは、クラウド データ センター内での柔軟なリソース割り当てと共有の広大な海に浮かぶ孤立した島のようなものになる可能性があるとのことです。

top500

さらに、19年2023月XNUMX日には、Linux Foundationのリーダーシップのもと、Ultra Ethernet Consortium(UEC)が設立されました。クラウドプロバイダー(MATA、Microsoftなど)、ネットワーク機器メーカー(Broadcom、Cisco、HPなど)、半導体企業(AMD、Intel)で構成されるUECは、イーサネットをベースにしたオープンで相互運用可能な高性能通信スタックの提供を目指しています。この取り組みは、AIやHPCのネットワーク需要の高まりをサポートしています。

InfiniBand は、RDMA を早期に採用し、低レイテンシ、高帯域幅、信頼性などのネイティブな利点を提供します。2015 年には、TOP500 スーパーコンピューター リストにおける InfiniBand のシェアが 50% を超え、スーパーコンピューターの推奨内部接続テクノロジーとなりました。

現在、InfiniBand (IB) アーキテクチャの主要サプライヤは、Nvidia の Mellanox です。InfiniBand Trade Association (IBTA) は、当初、Intel、Microsoft、SUN、IBM、Compaq、HP などの大手企業によって設立されました。1999 年 2001 月、Mellanox は、Intel と Galileo Technology の元従業員によってイスラエルで設立されました。2002 年に、同社は最初の IB 製品を発売しました。しかし、XNUMX 年に、IB 陣営の元巨人である Intel と Microsoft は撤退しました。

2010 年、Mellanox は Voltaire と合併し、Mellanox と QLogic が主要な IB サプライヤーとなりました。2012 年、Intel は QLogic の IB ネットワーキング事業を 125 億 140 万ドルで買収し、IB 陣営に再参入しました。その後まもなく、Intel は Cray から「Gemini」XT および「Aries」XC スーパーコンピューティング相互接続事業も XNUMX 億 XNUMX 万ドルで買収しました。その後、同社は IB と Aries をベースにした新しい Omni-Path 相互接続テクノロジーを開発しました。

2013 年、Mellanox はシリコンフォトニクス技術企業 Kotura と並列光相互接続チップ製造業者 IPtronics を買収し、事業拡大を続けました。2015 年までに、Mellanox は世界の InfiniBand 市場で 80% のシェアを獲得しました。2019 年、Nvidia は競合他社の Intel と Microsoft を 6.9 億ドルで上回り、Mellanox の買収に成功しました。

それでは、Nvidia の最新世代 GB200 製品を見てみましょう。

  1. ラックの内部構成:

各ラックには、18 個のコンピュート トレイ (上部に 10 個、下部に 8 個) と 9 個のスイッチ トレイが含まれています。

銅ケーブル カートリッジは、ラック内のコンピューティング トレイとスイッチ トレイを接続します。

GB200 は液体冷却システムを採用しており、同じ消費電力で H25 の空冷インフラストラクチャと比較して 100 倍のパフォーマンスを実現します。

コンピュートトレイのコンポーネント:

各コンピュート トレイには次のものが含まれます。

2 GB200 グレース ブラックウェル スーパーチップ

4 つの ConnectX-800G InfiniBand スーパーニック

1 台の BlueField-3 データ処理ユニット (DPU)。

GB200

GB200 グレース ブラックウェル スーパーチップ:

GB200 Grace Blackwell スーパーチップは、XNUMX つの Blackwell GPU と XNUMX つの Grace CPU で構成されています。

個々の Blackwell GPU は、以前の Hopper GPU アーキテクチャの 2 倍のサイズです。

ただし、AI パフォーマンス (FP4) は Hopper の XNUMX 倍です。

具体的には、単一の Blackwell GPU で約 20 ペタフロップスの AI パフォーマンス (FP8) を実現します。

8TB/秒という驚異的なメモリ帯域幅を備えた 24x 3GB HBM8e メモリを搭載しています。

GB200 には 18 個の NVLink ポートがあり、18 個の NVLink スイッチ チップに接続して、1.8TB/秒の双方向通信を実現します。

ConnectX-800G InfiniBand スーパーニック:

ConnectX-800G InfiniBand Supernic は、エンドツーエンドの 800Gb/s ネットワーク接続とパフォーマンス分離を可能にします。

マルチテナント AI クラウドの効率的な管理のために特別に設計されています。

PCIe 6.0 を活用して、800Gb/s のデータ スループットを提供します。

ConnectX-8 Supernic は、シングルポート OSFP 224 コネクタとデュアルポート QSFP112 コネクタの両方をサポートします。

さらに、16 チャネルの補助カード拡張により NVIDIA Socket Direct をサポートします。

ブルーフィールド3 DPU:

Bluefield-3 DPU は、400Gb/s イーサネットまたは NDR 400Gb/s InfiniBand ネットワークを介して接続します。

ソフトウェア定義のネットワーク、ストレージ、セキュリティ、管理機能をオフロード、高速化、分離します。

その結果、データセンターのパフォーマンス、効率、セキュリティが大幅に向上します。

コンピュータトレイ

各スイッチ トレイには 2 つの NVLink スイッチ チップが含まれています。

各スイッチ チップは 1.8 つのインターフェイスをサポートし、XNUMX つのインターフェイスで XNUMXTB/秒の転送速度を実現します。

スイッチ トレイは合計 144 個の NVLink ポート (100 GB) を提供し、全体の帯域幅は 14.4 TB/秒になります。

72 つのスイッチ トレイを使用すると、それぞれ 18 個の NVLink ポートを備えた 1296 個の Blackwell GPU を完全に接続できます (合計 XNUMX 個の NVLink ポート)。

スイッチトレイ

キャビネット内部接続の場合:

コンピュート トレイとスイッチ トレイは、第 5 世代の NVLink を介してリンクされます。

第 1.8 世代 NVLink の双方向帯域幅は 14TB/s で、前世代の 5 倍、PCIe GenXNUMX 帯域幅の XNUMX 倍以上です。

この 1.8TB/秒の GPU 間通信により、AI および高性能コンピューティングにおける GPU 拡張が可能になります。

コンピューティング トレイ内では、Superchip の内部 GPU と CPU が NVLink チップ間通信 (双方向帯域幅 900GB/秒) を介して接続されます。

nvlink

キャビネット内接続(単一ラック内):

最大 72 個の GPU を備えた構成の場合、単一ラック内で推奨されるソリューションは銅ケーブル (NVLink) を使用することです。GB200 のチップ密度の向上と効率的な液体冷却により、より小さなスペースにより多くの GPU を配置できるため、キャビネット内接続には銅ケーブルがコスト効率の高い選択肢となります。ただし、長距離伝送損失は将来の反復において依然として懸念事項です。

GPU の数が 72 を超えると、単層ネットワークでは不十分になります。より上位のネットワーク構造にアップグレードする必要があります。シングル NVLink と InfiniBand (IB) ネットワークの XNUMX つのオプションがあります。

シングル NVLink 構成:

72 個以上 576 個未満の GPU を接続する場合は、オール NVLink クラスター アーキテクチャの使用を検討してください。GPU と光モジュールの比率は 1:9 です。

シングルラックを超える拡張性が必要な場合は、デュアルラック NVL72 構成が推奨されます。各ラックには、18 個のコンピュート トレイと 9 個のスイッチ トレイが含まれます。特に、デュアルラック バージョンでは、各コンピュート トレイには 2 つの Grace Blackwell スーパーチップ (1 つの Blackwell GPU + XNUMX つの Grace CPU) のみが搭載されます。スイッチ トレイの内容は、シングルラック バージョンとデュアルラック バージョンの両方で一貫しています。

36 個の Blackwell GPU が 18 個の NVSwitch チップに完全接続され (合計 648 ポート)、576 個の GPU クラスターは 16 個の 10,368 列キャビネットにまたがります。これにより、累積要件は 50 個のポートとなり、単方向速度は 100GB/秒 (双方向 1GB/秒) になります。L2 から L1.6 のネットワーク層で 200T 光モジュール (5,184GB/秒) を使用すると仮定すると、1.6 個の 1T 光モジュールが必要になります。GPU と光モジュールの比率は 9:XNUMX です。

InfiniBand (IB) 構成:

必要な GPU 数が 72 を超える場合は、IB ネットワーキングを検討してください。最新の NVIDIA Quantum-X800 Q3400 スイッチを使用すると、ポートの数によって、さまざまなネットワーク レイヤーの最大 GPU 容量が決まります。

NVIDIA Quantum-2と比較すると QM9700 Quantum-X64 Q400 は 800G ポートが 3400 個しかないのに対し、144G ポートが 800 個あり、最大 (144^2)/2 = 10,368 個の GPU を相互接続できます。

SemiAnalysis の予測によると、GPU と 1.6T 光モジュールの比率は、2.5 層ネットワークの場合は約 2、3.5 層ネットワークの場合は約 3 です。

コメント

上へスクロール