人工知能のワークロードは、GPU 間の大量のデータ転送を処理する少数のタスクによって特徴付けられ、テール レイテンシーはアプリケーション全体のパフォーマンスに大きな影響を与える可能性があります。従来のネットワーク ルーティング メカニズムを使用してこのトラフィック パターンを処理すると、GPU パフォーマンスが不安定になり、AI ワークロードの使用率が低下する可能性があります。
NVIDIA Spectrum-X RoCE ダイナミック ルーティングは、輻輳を回避するために RDMA データ ルーティングを動的に調整するきめ細かいロード バランシング テクノロジであり、BlueField 3 の DDP テクノロジと組み合わせることで、最適なロード バランシングを提供し、より効率的なデータ帯域幅を実現します。
Spectrum-X ネットワーク プラットフォームの概要
NVIDIA® Spectrum™-X ネットワーク プラットフォームは、イーサネット ベースの AI クラウドのパフォーマンスと効率を向上させるために設計された初のイーサネット プラットフォームです。この画期的なテクノロジーは、LLM と同様の大規模 AI ワークロードにおいて AI のパフォーマンスと電力効率を 1.7 倍向上させ、マルチテナント環境における一貫性と予測可能性を保証します。 Spectrum-X は Spectrum-4 イーサネット スイッチと NVIDIA BlueField®-3 DPU ネットワーク カードに基づいており、AI ワークロード向けにエンドツーエンドで最適化されています。
Spectrum-X の主要テクノロジー
AI ワークロードをサポートおよび高速化するために、Spectrum-X は、DPU からスイッチ、ケーブル/光デバイス、ネットワーク、高速化ソフトウェアに至るまで、次のような一連の最適化を行いました。
- Spectrum-4 での NVIDIA RoCE 適応ルーティング
- BlueField-3 上の NVIDIA ダイレクト データ プレースメント (DDP)
- Spectrum-4 および BlueField-3 での NVIDIA RoCE 輻輳制御
- NVIDIA AI アクセラレーション ソフトウェア
- エンドツーエンドの AI ネットワークの可視性
Spectrum-X の主な利点
- AI クラウドのパフォーマンスの向上: Spectrum-X は、AI クラウドのパフォーマンスを 1.7 倍に向上させます。
- 標準イーサネット接続: Spectrum-X はイーサネット標準に完全に準拠しており、イーサネット ベースのテクノロジー スタックと完全な互換性があります。
- エネルギー効率の向上: Spectrum-X はパフォーマンスを向上させることで、よりエネルギー効率の高い AI 環境に貢献します。
- 強化されたマルチテナント保護: マルチテナント環境でパフォーマンスの分離を実行し、各テナントのワークロードに対して最適かつ一貫したパフォーマンスを確保し、顧客満足度とサービス品質の向上を推進します。
- AI ネットワークの可視性の向上: AI クラウド内で実行されているトラフィックを監視して可視化し、パフォーマンスのボトルネックを特定し、最新の自動ネットワーク検証ソリューションの重要なコンポーネントとなります。
- より高い AI 拡張性: 高いパフォーマンス レベルを維持しながら、ワン ホップで 128 個の 400G ポート、または 8 層スパイン トポロジで XNUMXK ポートへの拡張をサポートし、AI クラウドの拡張をサポートします。
- ネットワーク設定の高速化: 高度なネットワーク機能のエンドツーエンド構成が自動化され、AI ワークロード向けに完全に最適化されます。
Spectrum-4 イーサネット スイッチ
Spectrum-4 スイッチは 51.2Tbps ASIC 上に構築されており、単一の 128U スイッチで最大 400 個の 2G イーサネット ポートをサポートします。 Spectrum-4 は、AI ワークロード向けに設計された初のイーサネット スイッチです。 AI に関しては、RoCE が拡張されました。
- RoCE適応ルーティング
- RoCE パフォーマンスの分離
- 大規模標準イーサネットの効果的な帯域拡張
- 低遅延、低ジッター、短いテール遅延
NVIDIA Spectrum-4 400 ギガビット イーサネットスイッチ
ブルーフィールド-3 DPU
NVIDIA BlueField-3 DPU は、クラウドからコア データ センター、エッジまで、ソフトウェア定義のハードウェア アクセラレーション IT インフラストラクチャを構築できる第 400 世代のデータ センター インフラストラクチャ チップです。3Gb/s イーサネット ネットワーク接続を備えた BlueField-3 DPU は、ソフトウェア定義のネットワーク、ストレージ、セキュリティ、管理機能をオフロード、高速化、分離できるため、データ センターのパフォーマンス、効率、セキュリティが大幅に向上します。BlueField-XNUMX は、Spectrum-X を搭載したクラウド AI データ センターの南北および東西トラフィックに、マルチテナントの安全なパフォーマンス機能を提供します。
NVIDIA BlueField-3 400Gb/秒 イーサネット DPU
BlueField-3 は AI アクセラレーション用に構築されており、AI、NVIDIA GPUDirect、および NVIDIA Magnum IO GPUDirect Storage アクセラレーション テクノロジ向けの包括的なエンジンを統合しています。
さらに、ローカル メモリを利用して大規模な AI クラウドを高速化する特別なネットワーク インターフェイス モード (NIC) モードも備えています。これらのクラウドには、システム メモリを使用する代わりにローカル アドレスでアクセスできるキュー ペアが多数含まれています。最後に、RoCE 適応ルーティングを強化するための NVIDIA Direct Data Placement (DDP) テクノロジーが含まれています。
NVIDIA エンドツーエンド物理層 (PHY)
Spectrum-X は、NVIDIA の SerDes テクノロジーを使用して、スイッチから DPU、GPU まで、同じ 100G SerDes チャネル上に構築された唯一のイーサネット ネットワーク プラットフォームです。
NVIDIA の SerDes は、優れた信号整合性と最低のビット エラー レート (BER) を保証し、AI クラウドの消費電力を大幅に削減します。この強力な SerDes テクノロジーは、NVIDIA の Hopper GPU、Spectrum-4、BlueField-3、Quantum InfiniBand 製品ポートフォリオと組み合わせることで、電力効率とパフォーマンスの完璧なバランスを実現します。
一般的な Spectrum-X ネットワーク トポロジ
SerDes テクノロジーは、パラレル データをシリアル データに、またはその逆に変換できるため、現代のデータ伝送において重要な役割を果たしています。
ネットワークまたはシステム内のすべてのネットワーク デバイスおよびコンポーネントにわたって SerDes テクノロジーを均一に使用すると、多くの利点がもたらされます。
コストと電力効率: NVIDIA Spectrum-X で使用される SerDes は、高い電力効率を実現するために最適化されており、異なるデータ レートをブリッジするために使用されるネットワーク内のギアボックスを必要としません。ギアボックスを使用すると、データ パスが複雑になるだけでなく、余分なコストと消費電力も増加します。これらのギアボックスの必要性がなくなることで、電力と冷却に関連する初期投資と運用コストが削減されます。
システム設計の効率化: データセンターのインフラストラクチャで最高の SerDes テクノロジーを均一に使用すると、信号の整合性が向上し、システム コンポーネントの必要性が減り、システム設計が簡素化されます。同時に、同じ SerDes テクノロジーを使用することで、操作が容易になり、可用性も向上します。
NVIDIA アクセラレーション ソフトウェア
ネットQ
NVIDIA NetQ は、リアルタイムの AI ネットワークの可視化、トラブルシューティング、検証を行うための拡張性の高いネットワーク運用ツールセットです。 NetQ は、NVIDIA スイッチ テレメトリ データと NVIDIA DOCA テレメトリを活用して、スイッチと DPU の健全性に関する洞察を提供し、ネットワークを組織の MLOps システムに統合します。
さらに、NetQ トラフィック テレメトリは、スイッチ ポートおよび RoCE キュー全体のフロー パスと動作をマッピングして、特定のアプリケーションのフロー状況を分析できます。
NetQ サンプルは、各フロー パスのレイテンシ (最大、最小、平均) とバッファ占有の詳細を分析してレポートします。 NetQ GUI は、考えられるすべてのパス、各パスの詳細、およびフローの動作をレポートします。テレメトリ テレメトリとトラフィック テレメトリを組み合わせることで、ネットワーク オペレータはサーバーやアプリケーションの問題の根本原因を積極的に特定することができます。
スペクトルSDK
NVIDIA イーサネット スイッチ ソフトウェア開発キット (SDK) は、パケット レート、帯域幅、遅延パフォーマンスに影響を与えない複雑なプログラム機能を備えた、スイッチングおよびルーティング機能を柔軟に実装できます。 SDK、サーバー、ネットワーク OEM、およびネットワーク オペレーティング システム (NOS) を使用すると、ベンダーはイーサネット スイッチ シリーズの集積回路 (IC) の高度なネットワーク機能を活用して、柔軟で革新的でコストが最適化されたスイッチング ソリューションを構築できます。
NVIDIA DOCA
NVIDIA DOCA は、NVIDIA BlueField DPU の潜在能力を解き放ち、データ センターのワークロードをオフロード、高速化、分離するための鍵です。DOCA を使用すると、開発者はゼロ トラスト保護を備えたソフトウェア定義のクラウド ネイティブ DPU 高速化サービスを作成し、現代のデータ センターの高まるパフォーマンスとセキュリティの要求に対応できます。
NVIDIA Spectrum-X の主な機能
NVIDIA RoCE ダイナミック ルーティングの動作原理
RoCE 動的ルーティングは、Spectrum-4 スイッチと BlueField-3 DPU の間でエンドツーエンド方式で機能します。
- Spectrum-4 スイッチは、輻輳が最も低いポートに基づいて各パケットを選択し、データ送信を均等に分散します。同じフローの異なるパケットがネットワークの異なるパスを通過する場合、それらは順序付けられていない方法で宛先に到着する可能性があります。
- BlueField-3 DPU は、RoCE 伝送層でデータを処理し、アプリケーションに継続的なデータ透過性を提供します。 Spectrum-4 スイッチは、送信キューの負荷に基づいて輻輳状況を評価し、すべてのポートの使用率のバランスが取れていることを確認します。スイッチは、各ネットワーク パケットの負荷が最も低い出力キューを選択します。 Spectrum-4 スイッチは隣接するスイッチからステータス通知も受信します。これも転送の決定に影響を与える可能性があります。評価には、トラフィック クラスに一致するキューが含まれます。したがって、Spectrum-X は、大規模システムや高負荷のシナリオで最大 95% の実効帯域幅を実現できます。
2. NVIDIA RoCE ダイナミック ルーティングと NVIDIA ダイレクト データ配置テクノロジ
次に、データ パケット レベルの例を使用して、Spectrum-X ネットワーク内で AI フローがどのように移動するかを示します。
データ パケット レベルでの Spectrum-4 スイッチと BlueField DPU 間の協調プロセスを示しています。
ステップ 1: データはグラフの左側のサーバーまたは GPU メモリから発生し、右側のサーバーに到達します。
ステップ 2: BlueField-3 DPU はデータをネットワーク パケットにラップし、最初の Spectrum-4 リーフ スイッチに送信します。同時にこれらのパケットにマークを付けて、スイッチが RoCE ダイナミック ルーティングを実行できるようにします。
ステップ 3: 左側の Spectrum-4 リーフ スイッチは、RoCE ダイナミック ルーティングを適用して、緑と紫のフローからのデータ パケットのバランスをとり、各フローのパケットを複数のスパイン スイッチに送信します。これにより、実効帯域幅が標準よりも増加します イーサネットSpectrum-X の 60% に対して 95% (1.6 倍)。
ステップ 4: これらのパケットは、右側の BlueField-3 DPU に順序どおりに到着しない可能性があります。
ステップ 5: 適切な BlueField-3 DPU は、NVIDIA ダイレクト データ配置 (DDP) テクノロジを使用して、データを正しい順序でホスト/GPU メモリに配置します。
RoCE 動的ルーティングの結果
RoCE ダイナミック ルーティングの有効性を検証するために、RDMA 書き込みテスト プログラムを使用して初期テストを実行しました。テストでは、ホストをいくつかのペアに分割し、各ペアが一定時間、大量の RDMA 書き込みデータ ストリームを相互に送信しました。
RoCE 動的ルーティングにより、完了時間を短縮できます。
上の図に示すように、ハッシュに基づく静的転送では、アップリンク ポートで競合が発生し、その結果、完了時間の増加、帯域幅の減少、フロー間の公平性の低下が生じます。動的ルーティングに切り替えると、これらの問題はすべて解決されます。
ECMP グラフでは、一部のフローは同様の帯域幅と完了時間を示しますが、他のフローでは競合が発生し、完了時間が長くなり、帯域幅が低くなります。具体的には、ECMP シナリオでは、一部のフローの最適完了時間 T は 13 秒ですが、最も遅いフローの完了には 31 秒かかり、これは理想的な時間 T の約 2.5 倍です。 RoCE 動的ルーティング グラフでは、すべてのフローがほぼ同時に終了し、同様のピーク帯域幅を持ちます。
AI ワークロード向けの RoCE 動的ルーティング
動的ルーティングを使用した RoCE ワークロードのパフォーマンスをさらに評価するために、32 つの NVIDIA Spectrum スイッチで構築された XNUMX 層リーフスパイン ネットワーク トポロジ上の XNUMX 台のサーバーで構成されるテスト プラットフォームで一般的な AI ベンチマークを実施しました。これらのベンチマークは、all-to-all トラフィックや all-reduce セット操作などの分散型 AI トレーニング ワークロードにおける一般的なセット操作とネットワーク トラフィック パターンを評価しました。
RoCE 動的ルーティングにより AI オールリデュースが強化
RoCE 動的ルーティングは AI を全面的に強化します
RoCE 動的ルーティングの概要
多くの場合、ECMP ベースのハッシュベースのフロー ルーティングは、高い輻輳とフローの完了時間が不安定になり、アプリケーションのパフォーマンスの低下を引き起こす可能性があります。 Spectrum-X RoCE ダイナミック ルーティングは、この問題を解決します。この技術により、フローの完了時間の不安定性を可能な限り最小限に抑えながら、実際のネットワーク スループット (グッドプット) が向上し、アプリケーションのパフォーマンスが向上します。 RoCE 動的ルーティングを BlueField-3 DPU 上の NVIDIA ダイレクト データ プレースメント (DDP) テクノロジーと組み合わせることで、アプリケーションの透過的なサポートを実現できます。
NVIDIA RoCE 輻輳制御を使用してパフォーマンスの分離を実現する
ネットワークの混雑により、AI クラウド システムで実行されているアプリケーションのパフォーマンスが低下し、実行時間が不安定になる可能性があります。この輻輳は、アプリケーションのネットワーク トラフィックまたは他のアプリケーションのバックグラウンド ネットワーク トラフィックによって引き起こされる可能性があります。この輻輳の主な原因は、複数対 1 の輻輳です。つまり、複数のデータ送信者と 1 つのデータ受信者が存在します。
RoCE 動的ルーティングでは、この輻輳問題を解決できません。この問題を解決するには、各エンドポイントのネットワーク トラフィックを測定する必要があります。 Spectrum-X RoCE 輻輳制御はポイントツーポイント テクノロジーであり、Spectrum-4 スイッチは、ネットワーク内のリアルタイムの輻輳状況を表すネットワーク テレメトリ情報を提供します。このテレメトリ情報は BlueField-3 DPU によって処理され、共有ネットワークの効率を最大化するためにデータ送信者のデータ挿入レートを管理および制御します。輻輳制御がない場合、複数対 XNUMX のシナリオによりネットワークの過負荷、輻輳の伝播、またはパケット損失が発生し、ネットワークとアプリケーションのパフォーマンスが大幅に低下する可能性があります。
輻輳制御プロセスでは、BlueField-3 DPU は輻輳制御アルゴリズムを実行します。このアルゴリズムは、4 秒あたり数千万件の輻輳制御イベントをマイクロ秒レベルで処理し、高速かつきめ細かいレート決定を行うことができます。 Spectrum-XNUMX スイッチは、内部テレメトリによる正確な輻輳推定を提供し、正確なレート推定とポート使用率インジケータを提供して、迅速な回復を実現します。 NVIDIA の輻輳制御により、テレメトリ データは混雑したフローのキュー遅延をバイパスしながら、同時に正確なテレメトリ情報を提供できるため、検出と応答時間が大幅に短縮されます。
次の例は、ネットワークで複数対 1 の輻輳がどのように発生したか、また Spectrum-X が RoCE 輻輳制御にトラフィック測定と内部テレメトリをどのように使用したかを示しています。
ネットワークの混雑によりストリームが中断される
この図は、ネットワークの輻輳の影響を受けるフローを示しています。 1 つの送信元 DPU が 2 つの宛先 DPU にデータを送信しています。ソース 3、1、および 4 は、利用可能なリンク帯域幅の 2 分の 3 を使用して、データを宛先 2 に送信します。ソース XNUMX は、ソース XNUMX と共有するリーフ スイッチを介して宛先 XNUMX にデータを送信し、宛先 XNUMX が利用可能なリンク帯域幅の XNUMX 分の XNUMX を受け取ります。
輻輳制御がない場合、ソース 1、2、および 3 はすべて宛先 1 にデータを送信するため、1 対 1 の輻輳比が発生します。この輻輳により、ソース 4 と宛先 2 に接続されているリーフ スイッチからのバック プレッシャーが発生します。送信元 XNUMX は輻輳したフローとなり、宛先 XNUMX のスループットは XNUMX パーセントの利用可能な帯域幅 (期待されるパフォーマンスは XNUMX パーセント) まで低下します。これは、平均および最悪の場合のパフォーマンスに依存する AI アプリケーションのパフォーマンスに悪影響を及ぼします。
Spectrum-X は、トラフィック測定とテレメトリによって渋滞問題を解決します
この図は、Spectrum-X が図 14 の輻輳問題をどのように解決したかを示しています。同じテスト環境を示しています。1 つのソース DPU が 2 つの宛先 DPU にデータを送信します。この状況では、ソース 3、4、および 4 のトラフィック測定により、リーフ スイッチでの輻輳の発生が防止されます。これにより、ソース XNUMX のバック プレッシャーがなくなり、予想される XNUMX 分の XNUMX の帯域幅を達成できるようになります。さらに、Spectrum-XNUMX は、What Just Happened によって生成された内部テレメトリ情報を使用して、フロー パスとキューの動作を動的に再割り当てします。
RoCE パフォーマンスの分離
AI クラウド インフラストラクチャは、多数のユーザー (テナント) と並列アプリケーションまたはワークロードをサポートする必要があります。これらのユーザーとアプリケーションは、ネットワークなどのインフラストラクチャ内の共有リソースをめぐって競合するため、パフォーマンスに影響を与える可能性があります。
さらに、クラウド上の AI アプリケーションの NVIDIA 集合通信ライブラリ (NCCL) ネットワーク パフォーマンスを最適化するには、クラウド内で実行されているすべてのワークロードを調整して同期する必要があります。弾力性や高可用性などのクラウドの従来の利点は、AI アプリケーションのパフォーマンスに限定的な影響を与えますが、パフォーマンスの低下はより重要な世界的な問題です。
Spectrum-X プラットフォームには、組み合わせることでパフォーマンスの分離を実現できるいくつかのメカニズムが含まれています。これにより、ワークロードが別のワークロードのパフォーマンスに影響を与えないようになります。これらのサービス品質メカニズムにより、他のワークロードのデータ送信に影響を与える可能性のあるネットワーク輻輳を引き起こすワークロードが存在しないことが保証されます。
RoCE ダイナミック ルーティングを使用することで、きめ細かいデータ パス バランシングを実現し、リーフ スイッチとスパイン スイッチを介したデータ フローの競合を回避し、パフォーマンスの分離を実現しました。トラフィック測定とテレメトリによる RoCE 輻輳制御を有効にし、パフォーマンスの分離をさらに強化します。
さらに、Spectrum-4 スイッチは、パフォーマンスの分離を促進するためにグローバル共有バッファ設計を採用しています。共有バッファは、異なるサイズのフローに対して帯域幅の公平性を提供し、複数のフローが同じ宛先ポートをターゲットとするシナリオで、同じ宛先ポート目標を持つノイズの多い近隣フローの影響からワークロードを保護し、複数のフローがターゲットである場合の短期間の送信をより適切に吸収します。異なる宛先ポート。
関連製品:
- OSFP-400G-FR4 400G FR4 OSFP PAM4 CWDM4 2km LC SMF FEC 光トランシーバー モジュール $900.00
- OSFP-400G-DR4+ 400G OSFP DR4+ 1310nm MPO-12 2km SMF 光トランシーバー モジュール $879.00
- OSFP-400G-LR4 400G LR4 OSFP PAM4 CWDM4 LC 10km SMF 光トランシーバー モジュール $1199.00
- OSFP-400G-SR4-FLT 400G OSFP SR4 フラットトップ PAM4 850nm OM30 で 3m/OM50 で 4m MTP/MPO-12 マルチモード FEC 光トランシーバ モジュール $650.00
- QSFP-DD-400G-LR4 400G QSFP-DD LR4 PAM4 CWDM4 10km LC SMFFEC光トランシーバーモジュール $650.00
- QSFP-DD-400G-SR4.2 400Gb/s QSFP-DD SR4 BiDi PAM4 850nm/910nm 100m/150m OM4/OM5 MMF MPO-12 FEC 光トランシーバ モジュール $1000.00
- QSFP112-400G-DR4 400G QSFP112 DR4 PAM4 1310nm 500m MTP/MPO-12、KP4 FEC 光トランシーバ モジュール付き $1350.00
- QSFP112-400G-FR4 400G QSFP112 FR4 PAM4 CWDM 2km デュプレックス LC SMF FEC 光トランシーバー モジュール $1760.00
- QSFP112-400G-SR4 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC 光トランシーバー モジュール $990.00
- QSFP-DD-400G-DR4 400G QSFP-DD DR4 PAM4 1310nm 500m MTP / MPO SMFFEC光トランシーバーモジュール $450.00
- QSFP-DD-400G-SR8 400G QSFP-DD SR8 PAM4 850nm 100m MTP / MPO OM3FEC光トランシーバーモジュール $180.00
- QSFP-DD-800G-DR8 800G-DR8 QSFP-DD PAM4 1310nm 500m DOM MTP/MPO-16 SMF 光トランシーバー モジュール $1300.00
- OSFP-800G-SR8 OSFP 8x100G SR8 PAM4 850nm MTP/MPO-16 100m OM4 MMF FEC 光トランシーバー モジュール $750.00
- QSFP-DD-800G-DR8D QSFP-DD 8x100G DR PAM4 1310nm 500m DOM デュアル MPO-12 SMF 光トランシーバー モジュール $1500.00
- NVIDIA MCX623106AN-CDAT SmartNIC ConnectX®-6 Dx EN ネットワーク インターフェイス カード、100GbE デュアル ポート QSFP56、PCIe4.0 x 16、トール & ショート ブラケット $1200.00
- NVIDIA Mellanox MCX516A-CCAT SmartNIC ConnectX®-5 EN ネットワーク インターフェイス カード、100GbE デュアル ポート QSFP28、PCIe3.0 x 16、トール & ショート ブラケット $985.00