NVIDIA の Spectrum-X ソリューションを理解する

NVIDIA の Spectrum-X ソリューションは、生成 AI 専用に設計された世界初のエンドツーエンド イーサネット ソリューションです。この包括的なソリューションには、Spectrum-4 シリーズ スイッチ、BlueField-3 SuperNIC、LinkX 800G/400G 高性能ケーブル モジュール、ハードウェア アクセラレーション機能を備えた統合フルスタック ソフトウェア ソリューションなど、いくつかの主要コンポーネントが含まれています。Spectrum-X の真の力は、ハードウェアとソフトウェアの緊密な統合にあります。単一の部品を単独で使用しても、その最大の効率性を十分に発揮することはできません。

NVIDIA スペクトラム-X

現在、多くの大手チップメーカーが、AI および機械学習 (ML) アプリケーション向けに設計されたスイッチ チップを発売しており、単一チップのスループットは最大 51.2 Tbps に達します。従来のデータ センター スイッチ チップは AI シナリオで使用できますが、トレーニングと推論に重点を置いた AI トラフィックを処理する場合の効率性に問題があります。

従来のイーサネットが AI 固有のトラフィック モデルで制限に直面する理由を詳しく見てみましょう。主な原因は、負荷の不均衡、レイテンシとジッターの増加、輻輳制御の不十分さです。

ECMP 負荷不均衡の問題

従来のイーサネット データ センターは、主に Web ブラウジング、音楽やビデオのストリーミング、日常のオフィス タスクなどのアプリケーションを処理します。これらのアプリケーションには通常、ランダムに分散された多数の小さなデータ フロー (「フロー」と呼ばれる) が含まれるため、ネットワーク帯域幅が均等に使用されるようにするハッシュ アルゴリズム (ECMP) に基づくマルチパス負荷分散技術に適しています。

ただし、AI モデルのトレーニングでは、モデル、パラメーター、GPU、CPU、NIC が密接に結合されています。ネットワーク トラフィックは主に、all-reduce や all-to-all などの高帯域幅の集合操作で構成されます。通常、各 GPU は高帯域幅の NIC とペアになっており、各 NIC は各トレーニング プロセス中に比較的少数のフロー接続を確立します。これらのフローは、NIC 帯域幅全体をすぐに消費するほど大きく、「エレファント フロー」と呼ばれます。

エレファントフローの性質上、ハッシュアルゴリズムにより特定のネットワークパスに集中し、これらのパスに深刻な過負荷が発生する一方で、他のパスは十分に活用されない場合があります。この不均衡なトラフィック分散により、従来の ECMP ベースの負荷分散方法が無効になり、全体的なトレーニング効率に影響を及ぼします。

高遅延とジッターの問題

従来のイーサネット アプリケーションは TCP/IP ソケット プログラミングに依存しており、CPU はユーザー データをユーザー空間からカーネル空間にコピーし、その後カーネル空間からネットワーク カード ドライバーにコピーして処理し、受信者に送信する必要があります。このプロセスにより、レイテンシが増加し、CPU のワークロードが増加します。これらの問題に対処するために、最新の AI コンピューティング クラスターは、InfiniBand や RDMA over Converged Ethernet (RoCE) などのリモート ダイレクト メモリ アクセス (RDMA) テクノロジをサポートするロスレス ネットワークを使用します。これらのテクノロジは、カーネルをバイパスし (カーネル バイパス)、ゼロコピー メカニズムを使用することで、アプリケーション データの送信レイテンシを大幅に削減します。

AI トレーニング シナリオでは、GPU Direct RDMA や GPU Direct Storage などのテクノロジにより、GPU メモリ間、または GPU メモリとストレージ間で RDMA を介して直接データを交換できます。これにより、GPU メモリのデータ転送レイテンシが元の 10 分の 1 に短縮されます。さらに、NVIDIA Collective Communications Library (NCCL) は RDMA インターフェイスをシームレスにサポートし、AI アプリケーションの TCP から RDMA フレームワークへの移行を大幅に簡素化します。

数億のパラメータを持つ大規模なモデルをトレーニングする場合、効率を高めるためにデータとモデルを分解して並列処理することがよくあります。このプロセスでは、何千もの GPU が複雑で多次元の並列およびクロス構造構成で連携し、継続的にパラメータを交換して計算結果をまとめます。この分散並列トレーニング プロセスの各ステップが効率的で安定していることを確認することが重要です。1 つの GPU に障害が発生したり、ノード間通信の遅延が増加したりすると、トレーニング プロセス全体がボトルネックになる可能性があります。この遅延の増加は、全体的なトレーニング時間を延長するだけでなく、速度の向上 (トレーニング加速率) と最終的な結果にも悪影響を及ぼします。したがって、AI トレーニングには、遅延が少なくリンク品質の高いネットワークが必要です。

ネットワーク輻輳制御の不十分な問題

分散並列トレーニングでは、複数のソースが単一の受信者にデータを送信する「インキャスト」トラフィックの急増により、ネットワークの輻輳が発生することがよくあります。従来のイーサネットはベストエフォート型のサービス モデルに従うため、エンドツーエンドのサービス品質 (QoS) が良好であっても、バッファ オーバーフローとパケット損失を回避するのは困難です。通常、上位層プロトコルは再送信メカニズムを使用してパケット損失の影響を軽減します。RDMA をサポートするイーサネットでは、パケット損失をゼロにすることが非常に重要です。

この目標を達成するために、ホップバイホップのフロー制御メカニズムと「インキャスト」トラフィックの輻輳制御メカニズムという 2 つの主要テクノロジが広く採用されています。RDMA over Converged Ethernet (RoCE) ネットワークでは、これらのメカニズムはそれぞれ Priority Flow Control (PFC) と Data Center Quantized Congestion Control (DCQCN) として実装されています。

ホワイトペーパー

AI トレーニング シナリオでは、優先フロー制御 (PFC) とデータ センター量子化輻輳制御 (DCQCN) によってネットワーク輻輳が緩和されますが、依然として重大な欠点があります。PFC はホップバイホップのバックプレッシャーを生成することでデータ損失を防ぎますが、これにより輻輳ツリー、ヘッドオブライン ブロッキング、デッドロック ループが発生し、最終的にはネットワーク全体のパフォーマンスに影響を及ぼします。DCQCN は ECN マーキングと CNP メッセージに依存してレートを調整しますが、輻輳の指示は正確ではなく、レート調整は遅く、動的なネットワーク状態に迅速に対応できないため、スループットが制限されます。どちらも手動での調整と監視が必要であり、運用コストとメンテナンスの複雑さが増し、AI トレーニングにおける高性能で低遅延のネットワークに対する厳しい要求を満たすことができません。

NVIDIA Spectrum-X がこれらの問題を克服する方法

NVIDIA の Spectrum-X ソリューションは、AI トレーニングにおける従来のイーサネットの制限に対処することで、さまざまなネットワーク メーカーの中でも際立っています。最近の技術ホワイト ペーパーによると、Spectrum-X の核となる利点は、その「キラー」機能とみなされるアダプティブ ルーティング テクノロジにあります。このテクノロジは、従来のイーサネットの静的ハッシュ分散メカニズムによって生じる不均一な帯域幅割り当てに直接対処します。

Spectrum-X は、ネットワーク側スイッチと端末側 DPU (データ処理ユニット) の機能を深く統合することで、各リンクの物理帯域幅とポート出力輻輳ステータスのリアルタイムで動的な監視を実現します。この監視に基づいて、Spectrum-X は各ネットワーク パケットに対して細かく調整された動的な負荷分散戦略を実装し、リンク バランスと有効帯域幅使用率を従来の 50% ~ 60% から 97% 以上に大幅に向上させることができます。この改善により、AI アプリケーションにおける「エレファント フロー」(大規模なデータ伝送フロー) によって引き起こされるロングテール遅延の問題が直接解消されます。

適応ルーティングパフォーマンス

図に示すように、従来の ECMP では、帯域幅の使用率が不均一なため、特定のデータ フローの完了時間が大幅に長くなる可能性があります。対照的に、アダプティブ ルーティングでは、すべてのデータ フローが複数のリンクに均等に分散されるため、各データ フローの送信時間が大幅に短縮され、バランスが保たれ、トレーニング タスクの完了サイクル全体が短縮されます。特に、all-reduce や all-to-all などの AI トレーニング シナリオで一般的な集合通信パターンでは、Spectrum-X はリンク帯域幅の使用率が優れているため、従来のイーサネットに比べてパフォーマンスが大幅に優れています。

ダイレクト データ配置 (DDP): 順序外再構成の課題に対する革新的なソリューション

パケットごとの負荷分散戦略は帯域幅の利用効率を大幅に向上させ、非常に求められているソリューションとなっていますが、その主な課題は受信側での順序の乱れたパケットの再構成です。この問題は業界にとって克服するのが困難でした。従来の方法は、ネットワーク側の処理または端末側のソリューションに依存していますが、どちらもソフトウェアとハ​​ードウェアのパフォーマンスのボトルネックによって制限され、最適な結果が得られません。

Spectrum-X は、Spectrum-4 スイッチ ネットワーク側と BlueField-3 端末側ハードウェアの革新的な緊密な統合により、この課題に巧みに対処します。RoCE (RDMA over Converged Ethernet) シナリオでの DDP 処理フローの詳細な説明は次のとおりです。

RoCE(RDMA over Converged Ethernet)

左側では、異なる GPU メモリから発信されたトレーニング トラフィックが、まずそれぞれの送信 BlueField-3 NIC によって特別にマークされます。これらのマークされたパケットは、直接接続された Top of Rack (TOR) Spectrum-4 スイッチに送信されます。TOR スイッチは、強力なハードウェア機能を活用して、BlueField-3 でマークされたパケットをすばやく識別し、アップリンクのリアルタイムの帯域幅ステータスとバッファ状態に基づいて、パケットごとに動的ルーティング アルゴリズムを使用して、各データ フローのパケットを XNUMX つのアップリンク パスから XNUMX つのスパイン スイッチにインテリジェントに分散します。

トップオブラック (TOR)

これらのパケットは、それぞれのスパイン スイッチを通過し、最終的に宛先 TOR スイッチに到達し、さらにターゲット サーバーの BlueField-3 NIC に送信されます。送信パスの違いや機器のパフォーマンスの違いにより、パケットは宛先 BlueField-3 NIC に順序どおりに到着しない場合があります。宛先 BlueField-3 NIC は、内蔵の DDP テクノロジを使用して、BlueField-3 でマークされたパケットをすばやく識別し、パケット メモリ アドレスを直接読み取り、パケットをターゲット GPU のメモリに正確に配置します。その後、DDP テクノロジはこれらの順序どおりでないパケットをさらに統合し、正しい順序で完全なデータ フローに結合されるようにします。これにより、ネットワーク パスの違いや機器のパフォーマンスの不一致によって発生する順序どおりでない問題が完全に排除されます。

ブルーフィールド-3

Spectrum-X は、ダイナミック ルーティングと DDP ハードウェア アクセラレーション テクノロジーのシームレスな統合により、従来のイーサネット ECMP (等コスト マルチパス) メカニズムの不均等な帯域幅割り当ての問題を効果的に解決するだけでなく、順序の乱れたパケットによって発生するロングテール遅延現象を根本的に排除します。これにより、AI トレーニングなどの高性能コンピューティング アプリケーションに、より安定した効率的なデータ転送ソリューションが提供されます。

AIマルチテナント向けパフォーマンス分離

同時実行性の高い AI クラウド エコシステムでは、アプリケーションのパフォーマンスの変動と実行時の不確実性は、多くの場合、ネットワーク レベルの輻輳と密接に関係しています。この現象は、アプリケーション自体のネットワーク トラフィックの変動から発生するだけでなく、他の同時実行アプリケーションからのバックグラウンド トラフィックによっても引き起こされる可能性があります。具体的には、「多対 1」の輻輳 (複数のデータ ソースが単一の受信者にデータを送信する) が重大なパフォーマンスのボトルネックとなり、受信者の処理負荷が大幅に増加します。

マルチテナントまたはマルチタスクが共存する RoCE ネットワーク環境では、VXLAN などのテクノロジによってある程度のホスト分離を実現できますが、テナント トラフィックの輻輳とパフォーマンス分離の問題は依然として課題です。一般的なシナリオとしては、一部のアプリケーションが物理的なベアメタル環境では優れたパフォーマンスを発揮するが、クラウドに移行するとパフォーマンスが大幅に低下するというものがあります。

NVIDIA Spectrum-X ホワイトペーパー

たとえば、システムでワークロード A とワークロード B が同時に実行されているとします。ネットワーク輻輳が発生して輻輳制御メカニズムがトリガーされると、ECN によって伝達される情報が限られているため、送信側はどのスイッチ レベルで輻輳が発生したか、またはその範囲を判断できません。したがって、送信速度をどのくらい速く上げたり下げたりするかを決めることができず、多くの場合、徐々に収束させるヒューリスティックな方法に頼ることになります。この収束時間は長く、ジョブ間の干渉が簡単に発生する可能性があります。さらに、輻輳制御パラメータは多数あり、スイッチと NIC には非常に詳細で複雑なパラメータ設定が必要です。輻輳制御メカニズムのトリガーが速すぎたり遅すぎたりすると、顧客のビジネス パフォーマンスに大きな影響を与える可能性があります。

これらの課題に対処するため、BlueField-3 ハードウェア プラットフォーム上の強力なプログラム可能な輻輳制御機能を備えた Spectrum-X は、従来の DCQCN アルゴリズムを超える高度なソリューションを提供します。Spectrum-X は、RTT (ラウンド トリップ時間) プローブ パケットと中間スイッチからのインバンド テレメトリ情報を利用して、送信側と受信側の両方の BlueField-3 ハードウェアを緊密に連携させることで、トラフィック パスの輻輳状態を正確に評価します。この情報には、スイッチを通過するパケットのタイムスタンプや出力バッファ使用率などが含まれますが、これらに限定されません。これにより、輻輳制御の強固な基盤が提供されます。

DCQCN

重要なのは、BlueField-3 ハードウェアの高性能処理能力により、XNUMX 秒あたり数百万の輻輳制御 (CC) パケットを処理でき、さまざまなワークロードに基づいて洗練された輻輳制御を実現できることです。これにより、パフォーマンス分離の目標が効果的に達成されます。このメカニズムにより、ワークロード A とワークロード B はそれぞれ、他のテナントの輻輳による悪影響を受けることなく、期待される最適なパフォーマンスを実現できます。

要約すると、革新的なハードウェア テクノロジーとインテリジェントな輻輳制御アルゴリズムを備えた Spectrum-X は、AI マルチテナント クラウド環境に効率的かつ正確なパフォーマンス分離ソリューションを提供し、各テナントが物理環境に匹敵するパフォーマンスを実現できるようにします。

Spectrum-X 製品構成

SN5600 スイッチ: SN5600 スイッチは、TSMC の最先端の 2nm プロセスで製造され、驚異的な 4 億個のトランジスタを組み込んだ Spectrum-51.2 4 Tbps シングル チップを統合した高度な 100U ボックス スイッチです。

Spectrum-X 製品構成

このスイッチは 64 個の 800G OSFP ポートを搭載しており、128 個の 400G ポートまたは 256 個の 200G ポートへの拡張を柔軟にサポートし、多様なネットワーク ニーズに対応します。パケット転送速度は 33.3Bpps に達し、512K の転送テーブル エントリと 160MB のグローバル共有キャッシュを備え、172 バイトのパケットでもライン レート転送を保証します。さらに、SN5600 は Cumulus や Sonic などの主流のオペレーティング システムと完全に互換性があり、その機能は Spectrum シリーズの第 1 世代から第 4 世代まで継続的に進化しており、ユーザーに強化されたネットワーク パフォーマンスと柔軟性を提供します。

BlueField-3 SuperNIC: BlueField-3 SuperNIC は、BlueField-3 プラットフォームをベースとした新しいネットワーク アクセラレータで、大規模な AI ワークロードに対応するように設計されています。ネットワーク集約型の大規模並列コンピューティング向けに特別に開発されており、統合イーサネットを介して GPU サーバー間で最大 400Gb/s の RDMA 接続を提供し、ピーク時の AI ワークロード効率を最適化します。BlueField-3 SuperNIC は、AI クラウド コンピューティングの新しい時代を切り開き、安全なマルチテナント データ センター環境を提供し、ジョブとテナント間のパフォーマンスの一貫性と分離を保証します。

BlueField-3 SuperNIC

特に、強力な DOCA 2.0 ソフトウェア開発フレームワークは、高度にカスタマイズ可能なソフトウェア ソリューションを提供し、システム全体の効率をさらに向上させます。

LinkX ケーブル: LinkX ケーブル シリーズは、800G PAM400 テクノロジーを活用した 100G および 4G エンドツーエンドの高速接続に重点を置いています。OSFP および QSFP112 MSA 規格を完全にサポートし、DAC や ACC からマルチモードやシングルモードまで、さまざまな光モジュール形式をカバーし、多様な配線ニーズを満たします。これらのケーブルは、SN5600 スイッチの 800G OSFP ポートとシームレスにインターフェイスできるため、1G OSFP ポートを 2 対 400 に拡張でき、ネットワーク接続の柔軟性と効率が向上します。

概要とケーススタディ

NVIDIA の先駆的な世界トップクラスの AI イーサネット ソリューションである Spectrum-X は、業界をリードするハードウェアとソフトウェアのテクノロジを統合し、AI コンピューティング パワー エコシステムの再構築を目指しています。その中核となるハイライトには、自社開発の Spectrum-4 ASIC 高性能スイッチ、BlueField シリーズ DPU インテリジェント NIC、および Direct Drive テクノロジを使用した LinkX 光モジュール ケーブルが含まれます。これらのハードウェア コンポーネントを組み合わせることで、堅牢なインフラストラクチャが構築されます。

技術的には、Spectrum-X には、動的ルーティング メカニズム、エンドサイドの順序外修正テクノロジー、新世代のプログラム可能な輻輳制御アルゴリズム、フルスタック AI ソフトウェア アクセラレーション プラットフォーム DOCA 2.0 など、複数の革新的な機能が組み込まれています。これらの機能は、ネットワークのパフォーマンスと効率を最適化するだけでなく、AI アプリケーションの応答性と処理機能を大幅に強化し、生成 AI 分野のユーザーにとって効率的で信頼性の高いコンピューティング基盤を構築します。

この高度に統合されたソリューションは、従来のイーサネットと InfiniBand のギャップを埋めることを目的としており、AI クラウド市場向けにカスタマイズされた高性能ネットワーク サポートを提供することに重点を置いています。このソリューションは、高帯域幅、低遅延、柔軟な拡張に対する AI アプリケーションの厳しい要求を満たし、イーサネット技術のトレンドを AI 固有のシナリオ最適化へと導き、この新興の有望な市場の開発と拡大を目指しています。

Spectrum-X の技術的な利点は、フランスのクラウド サービス プロバイダー Scaleway でのアプリケーション ケースによく表れています。1999 年に設立された Scaleway は、Mistral AI、Aternos、Hugging Face、Golem.ai など、世界中の 80 社を超える顧客に、高性能インフラストラクチャと 25,000 を超えるクラウド製品およびサービスを提供しています。Scaleway は、革新的なソリューションを開発し、ユーザーが AI プロジェクトをゼロから構築して拡張できるように、ワンストップ クラウド サービスを提供しています。

現在、Scaleway は、大規模な AI モデルのトレーニング、推論、展開のための GPU インフラストラクチャを提供する地域 AI クラウドを構築しています。NVIDIA の Hopper GPU と Spectrum-X ネットワーク プラットフォームを採用することで、AI コンピューティング能力が大幅に強化され、AI トレーニング時間が短縮され、AI ソリューションの開発、展開、市場投入までの時間が加速され、ROI が効果的に向上しました。Scaleway の顧客は、数個の GPU から数千個に拡張して、あらゆる AI ユース ケースに対応できます。Spectrum-X は、マルチテナント、マルチタスク AI 環境に必要なパフォーマンスとセキュリティを提供するだけでなく、動的ルーティング、輻輳制御、グローバル共有バッファーなどのメカニズムを通じてパフォーマンスの分離も実現します。さらに、NetQ は、RoCE トラフィック カウンター、イベント、WJH (What Just Happened) アラートなどの機能を使用して AI ネットワークの健全性を詳細に可視化し、AI ネットワークの視覚化、トラブルシューティング、検証を可能にします。NVIDIA Air と Cumulus Linux のサポートにより、Scaleway は API ネイティブ ネットワーク環境を DevOps ツールチェーンに統合し、展開から運用へのシームレスな移行を保証できます。

コメント

上へスクロール