Computex での注目のほとんどは、NVIDIA の新しい DGX GH200 と MGX に集中していました。これらはどちらも、リファレンス デザインであるか完全なサーバーであるかに関係なく、NVIDIA のシステム レベルの AI 製品です。 AI と HPC はまさに人気があるため、CPU と GPU に関連するチップ、ボード、システムは常に NVIDIA にとってホットなトピックでした。
しかし実際には、AI HPC、特に生成 AI、または多くの人が現在「ラージ モデル」と呼んでいるコンピューティング、およびネットワーキングのコンテキストでは、ネットワークも非常に重要です。 言い換えれば、問題を解決するために連携するには多数のサーバーが必要であり、システムやノード全体でコンピューティング能力を拡張するには大規模なクラスターが必要です。 したがって、パフォーマンスの問題は、ノード内の CPU、GPU、AI チップの計算能力だけの問題ではありません。
以前、Google は、AI インフラストラクチャ全体において、システムレベルのアーキテクチャの重要性が TPU チップのマイクロアーキテクチャよりもさらに高いと述べました。 もちろん、この「システム レベル」は必ずしもノード間のネットワークをカバーしているわけではありませんが、多数のチップが連携して計算を行う場合、システムとネットワークがパフォーマンスのボトルネックになることは明らかです。
だからこそ、市場で既存の製品を販売したり競合したりするための主観的な方法ではなく、DPU が非常に重要なのです。 NVIDIA の DPU およびその他のネットワーク製品は、自社製品のショートボードの補足のようなものであり、主観的には、他社と競合したり、市場の既存の製品と競合したりするものではありません。 この観点から見ると、NVIDIA のハードウェア製品は水平方向に完全なエコシステムを構成しています。たとえば、DPU は主観的には他の製品と競合することを意図したものではなく、既存の製品の一部です。
Computex で、NVIDIA は Spectrum-X イーサネット プラットフォームを中心としたネットワーク製品を発表しました。 NVIDIA は、これが AI、特に「新しい種類のイーサネットを必要とする生成 AI ワークロード」向けに特別に設計された世界初の高性能イーサネット製品であると主張しています。 これまで、データ処理ユニット (DPU) を含む NVIDIA のネットワーク製品についてはあまり話してきませんでした。 Spectrum-X の導入に伴い、この記事では、このイーサネット製品と、NVIDIA のネットワーク製品の背後にあるロジックについて説明します。
なぜ NVIDIA は「スイッチ」を開発したいのでしょうか?
Spectrum-X プラットフォーム内の 4 つのコア コンポーネントは、Spectrum-3 イーサネット スイッチと BlueField-4 DPU です。 DPU に関する部分はあまり説明されていません。 Spectrum スイッチ関連のもう 400 つの部分である実際の GTC は、昨年 NVIDIA が Spectrum-100 90Gbps スイッチをリリースしました。 チップ レベルは Spectrum ASIC に基づいています。Huang Renxun 氏は Computex の基調講演でこのチップを披露しました。このチップは 90 億個のトランジスタ、800x500mm、チップ パッケージの底部に XNUMX 個のはんだボール、消費電力 XNUMXW を備えた大物です。
AI 専用に構築された「初の高性能イーサネット アーキテクチャ」である Spectrum-4 イーサネット スイッチ システムの発表が CSP で利用できるようになりました。
図に示すように、このシステムは合計 128 ポートを備え、帯域幅容量は 51.2TB/s で、これは従来のイーサネット スイッチの 2800 倍です。 同社によると、この新しいテクノロジーにより、ネットワーク エンジニア、AI データ サイエンティスト、クラウド サービス プロバイダーは、より迅速に結果を出し、意思決定を行うことができるようになり、同時に生成型 AI クラウドも実現できるとのことです。 高帯域幅と低遅延は、ノード間で GPU をスケーリングする際のパフォーマンスのボトルネックを軽減するために重要です。 スイッチ全体は XNUMXW の電力を消費します。
昨年の GTC で NVIDIA は、このスイッチは日常的な「マウス フロー」トラフィックの処理において従来のネットワーク スイッチと競合することを目的としたものではなく、大規模な AI、デジタル向けのハードウェア製品を活用して「エレファント フロー」トラフィックの処理に焦点を当てていると説明しました。双子、およびシミュレーション アプリケーション。
「従来のスイッチは、現在の生成 AI ワークロードを処理するには遅すぎます。 さらに、私たちはまだ AI 革命の初期段階にいます。 従来のスイッチはコモディティ クラウドには十分かもしれませんが、生成 AI を伴う AI クラウドの負荷に必要なパフォーマンスを提供することはできません」と、NVIDIA のネットワーキング SVP の Gilad Shainer 氏は基調講演で述べました。
事前説明会中に記者は、NVIDIA Spectrum が Arista や他の企業のスイッチと直接競合するかどうかを具体的に質問しました。 Shainer 氏の返答は、競争は存在しないというものでした。「市場にある他のイーサネット スイッチは、通常のコモディティ クラウドや、ユーザー アクセスやクラウド制御を含む南北トラフィックの構築に使用されています。 ただし、現時点では、イーサネット用の生成 AI の要求を満たすソリューションは市場にありません。 Spectrum-4 は、生成 AI における東西トラフィック用の世界初のイーサネット ネットワークとして、特にこの目標をターゲットとしたまったく新しいイーサネット ソリューションを作成しました。」 Shainer 氏はブリーフィングの中で、Broadcom の既存のスイッチング製品は Spectrum-4 と競合しないとも述べました。 NVIDIA は、Spectrum-X がロスレス イーサネット ネットワークを構築することを強調しており、これは Spectrum-X プラットフォームを説明する上で特に重要である可能性があります。
インフィニバンドとイーサネットの比較
イーサネットは時間の経過とともに進化してきました。 イーサネットはもともと損失の多いネットワーク環境向けに設計されているため、ロスレスが特徴的です。 つまり、このネットワークではパケット損失が許容されます。 信頼性を確保するために、IP ネットワークの上位層には TCP プロトコルが必要です。 つまり、パケット送信中にパケット損失が発生した場合、TCP プロトコルにより、送信者は失われたパケットを再送信できます。 ただし、これらのエラー修正メカニズムにより遅延が増加し、特定の種類のアプリケーションで問題が発生する可能性があります。 さらに、ネットワーク内のトラフィックの突然の急増に対処するために、スイッチは情報を一時的に保存するために追加のキャッシュ リソースを割り当てる必要があります。そのため、イーサネット スイッチ チップは同様の仕様の InfiniBand チップよりも大きく、高価になります。
ただし、「損失の多いネットワークは、ハイ パフォーマンス コンピューティング (HPC) データ センターには受け入れられません。」 Huang Renxun 氏は、「HPC ワークロードの実行にかかる全体コストは非常に高く、ネットワーク内の損失に耐えるのは困難です。」と述べています。 さらに、パフォーマンスの分離などの要件により、損失の多いネットワークに耐えることは実際に困難です。 NVIDIA は、InfiniBand と呼ばれるネットワーク通信規格を使用してきました。 InfiniBand は、高スループットと低遅延を必要とする HPC アプリケーションでよく使用されます。 より汎用性の高いイーサネットとは異なり、InfiniBand はデータ集約型アプリケーションに適しています。
InfiniBand は NVIDIA だけのものではありません。 元々は、Intel、IBM、Microsoft などの多くの企業によって開発され、IBTA と呼ばれる専門アライアンスもありました。 Mellanox は、2000 年頃に InfiniBand 製品の宣伝を開始しました。Wikipedia の紹介によると、InfiniBand の当初の目標は、I/O の PCI と相互接続するマシン ルームとクラスタの Ethernet を置き換えることでした。
残念ながら、InfiniBand はドットコム バブル崩壊の時期に開発されたため、その開発は抑制されました。 インテルやマイクロソフトなどの参加者は皆、新たな選択肢を手に入れた。 しかし、500 年のスーパーコンピューターの TOP2009 リストによると、既に 181 の内部接続が存在していました。 (残りはイーサネット)、2014 年までに半数以上が InfiniBand を使用していましたが、その後 10 年間で 2019Gb イーサネットが急速に追いつきました。 NVIDIA が XNUMX 年に Mellanox を買収したとき、Mellanox はすでに市場における InfiniBand 通信製品の主要サプライヤーとなっていました。
設計の観点から見ると、1980 年代に誕生したイーサネットは、複数のシステム間で情報の相互運用性を実現することだけに関心がありました。 対照的に、InfiniBand は、HPC シナリオにおけるクラスター データ送信の遅延などのボトルネックを解消するために生まれました。そのレイヤー 2 スイッチング処理設計は非常に直接的であり、転送遅延を大幅に削減できます。 したがって、高スループット、低遅延、高信頼性という点で、HPC、データセンター、スーパーコンピュータークラスターに当然適しています。
信頼性の観点から見ると、InfiniBand 自体はネットワーク層 1 ~ 4 の完全なプロトコル定義を持っています。InfiniBand は、エンドツーエンドのフロー制御メカニズムを通じてパケット損失を防ぎ、それ自体がロスレス特性を実現します。 XNUMX つの間のもう XNUMX つの大きな違いは、InfiniBand はスイッチド ファブリック ネットワーク設計に基づいているのに対し、イーサネットは共有メディア共有チャネルに基づいていることです。 理論的には、前者の方がネットワーク競合の問題をよりよく回避できます。
InfiniBand は非常に優れているのに、なぜ Nvidia は Ethernet を開発したいのでしょうか? 直感的に考えると、イーサネットの市場基盤、多用途性、柔軟性が重要な要素となるはずです。 Huang 氏は基調講演で、「生成 AI をすべてのデータセンターに導入したい」と語ったが、これには前方互換性が必要である。 「多くの企業がイーサネットを導入しています。」そして「彼らにとって InfiniBand 機能を入手するのは難しいため、私たちはその機能をイーサネット市場に提供します。 これが Spectrum-4 ロールアウトの背後にあるビジネス ロジックです。 しかし、それがすべてではないと私たちは考えています。
NVIDIA は Ethernet と InfiniBand の両方の製品に取り組んでおり、前者は Spectrum Ethernet プラットフォーム、後者は Quantum InfiniBand と呼ばれています。公式ページを見ると、InfiniBand ソリューションは「HPC、AI、スーパークラスター クラウド インフラストラクチャ上で、低コストで複雑さを抑えながら比類のないパフォーマンスを実現する」と書かれています。一方、Spectrum は AI とクラウド向けの高速 Ethernet スイッチングです。明らかに、この 2 つはある程度競合しています。
なぜイーサネットなのか?
Huang 氏は基調講演で、さまざまなタイプのデータ センターを科学的に説明しました。実際、昨年の GTC では、NVIDIA はデータ センターを XNUMX つのカテゴリに明確に分類していました。 そして、今日私たちが議論している AI シナリオでは、データセンターは XNUMX つの主要なカテゴリに分類できます。 XNUMX つのカテゴリは、さまざまなアプリケーションの負荷全体を担当する必要があるカテゴリで、多くのテナントが存在し、負荷間に弱い依存関係が存在する可能性があります。
しかし、スーパーコンピューティングや現在人気の AI スーパーコンピューティングなど、通常は別のカテゴリがあり、テナントが非常に少なく (ベアメタルが 1 つだけ)、負荷が密結合されているため、大規模な計算問題に対して高いスループットが要求されます。 これら XNUMX つのタイプのデータセンターに必要なインフラストラクチャには大きな違いがあります。 直感的に判断すると、イーサネットの最も原始的な損失の多い環境は、後者の要件には適していません。 この理由については、前回の記事ですでに説明しました。
SemiAnalysis は最近、InfiniBand の多くの問題 (主に技術的な問題) について具体的に説明した記事を書きました。この記事は、NVIDIA がイーサネットを同時に開発する際の参考資料として使用できます。 参考までにその一部をここに抜粋します。 実際、InfiniBand とイーサネット自体は両方とも常に進化しています。
InfiniBand のフロー制御は、クレジットベースのフロー制御メカニズムを使用します。 各リンクには、リンク帯域幅などの属性を反映する特定のクレジットが事前に割り当てられています。 パケットが受信されて処理されると、受信側は送信側にクレジットを返します。 理想的には、このようなシステムは、送信者がさらにパケットを送信する前にクレジットが返されるのを待つ必要があるため、ネットワークが過負荷にならないようにする必要があります。
しかし、このような仕組みには問題があります。 たとえば、送信ノードが受信ノードにデータを送信する速度が、受信ノードがデータを処理できる速度よりも速い場合、受信ノードのバッファがいっぱいになる可能性があります。 受信ノードは送信ノードにクレジットを返すことができず、その結果、送信ノードはクレジットが使い果たされてそれ以上のデータ パケットを送信できなくなります。 受信ノードがクレジットを返すことができず、送信ノードが他のノードの受信ノードでもある場合、帯域幅過負荷の場合にクレジットを返せないため、バック プレッシャーがより広いエリアに広がる可能性があります。 その他の問題には、さまざまなコンポーネントによって引き起こされるデッドロックやエラー率などがあります。
InfiniBand に固有の問題のいくつかは、システムの規模と複雑さが増すにつれてさらに深刻になります。 現在、商業的に実装されている最大の InfiniBand ソリューションはおそらく Meta によるもので、研究クラスターには合計 16,000 個の NIC と 16,000 個の A100 GPU が導入されています。
この規模は間違いなく大規模ですが、SemiAnalysis は、GPT-4 のトレーニングにはさらに大規模な規模が必要であり、将来の「大規模モデル」の開発にはクラスターの拡張が必要になる可能性が高いと述べています。 理論的には、InfiniBand は全体的な容量を拡大し続けることができますが、固有の問題の影響にますます悩まされることになります。 推論の観点から見ると、レイテンシとパフォーマンスは依然として InfiniBand の恩恵を受けることができますが、推論負荷の場合、さまざまなリクエストがさまざまな速度で継続的に送信されます。 さらに、将来のアーキテクチャでは、複数の大規模モデルを同じ大規模クラスター内のさまざまなバッチ サイズに含める必要があり、クレジット ベースのフロー制御の継続的な変更が必要になります。
クレジット フロー制御メカニズムは、ネットワーク環境の変化に迅速に対応することが困難です。 ネットワーク内に多様なトラフィックが大量に存在する場合、受信ノードのバッファ状態が急速に変化する可能性があります。 ネットワークが混雑すると、送信ノードはまだ以前のクレジット情報を処理しているため、問題はさらに複雑になります。 さらに、送信ノードがクレジットを常に待機し、データ送信の XNUMX つの状態を切り替えると、パフォーマンスの変動が容易に発生する可能性があります。
実用性の観点から見ると、NVIDIA の現在の Quantum-2 は 25.6TB/s の帯域幅を実現していますが、少なくとも数値的には Spectrum-4 の 51.2TB/s よりも低いです。 より高速な量子チップとインフラストラクチャは来年まで利用できないため、ペースが異なります。 さらに、コストの観点から見ると、従来の GPU 展開と同じ規模 (8000 以上の GPU) を実現するには、追加のスイッチング層と大幅に多くのケーブル (高コストの光ケーブル) が必要になります。 したがって、一般的な規模の InfiniBand ネットワーク導入コストは、イーサネットよりも大幅に高くなります。 (DPU と NIC ここではコストは考慮しません。)
顧客の観点から見ると、イーサネットの市場は InfiniBand よりもはるかに大きく、導入コストの削減にも役立ちます。 他にも、イーサネットに基づく従来のサービス フロントエンド システムや、顧客に対する InfiniBand によるサプライヤーの拘束問題など、具体的な比較可能な要因があります。 イーサネットには明らかにより多くの選択肢があり、導入の弾力性と拡張性も優れている可能性があります。 技術レベルでは、イーサネット用の光伝送インフラストラクチャの将来の展開に潜在的な価値があると思われます。
これらは、NVIDIA がイーサネットに重点を置く理論的根拠であるか、あるいは NVIDIA が生成 AI クラウドにイーサネットを選択した理由の一部である可能性があります。 ただし、参考としてのみ考慮すべき理由の XNUMX つは、InfiniBand が NVIDIA によって大きく進化しており、多くの固有の問題には解決策があるためです。
最後に、冒頭で述べた疑問、つまりイーサネットは元々損失の多いネットワークだったということについて話しましょう。 しかし実際には、RoCE (RDMA over Converged Ethernet) などのテクノロジーの発展により、InfiniBand の利点の一部がイーサネットにももたらされています。 実際、テクノロジーの拡張は、InfiniBand の高性能とロスレス、イーサネットの汎用性、費用対効果、柔軟性など、さまざまなテクノロジーの利点をある程度統合することになります。
Spectrum-X プラットフォームの機能で説明されている RoCE は、スイッチ デバイスではなくエンドポイント側 NIC の優先順位ベースのフロー制御 (PFC) に依存することにより、イーサネット ネットワークでのロスレス性を実現します。 さらに、RoCE++ には、パケット損失と到着順序の問題を処理する ASCK などの新しい最適化された拡張機能があり、受信側が損失または破損したパケットのみを再送信するように送信側に通知できるため、帯域幅の使用率が向上します。 ECN、フロー制御メカニズム、エラー最適化もあり、これらはすべて効率と信頼性の向上に貢献します。 さらに、RoCE ネットワークを備えた標準イーサネット上のエンドポイント NIC のスケーラビリティの問題を軽減するために、Bluefield NIC モードを使用できます。また、DPU の全体的なコストは、イーサネットといくつかの新しいテクノロジによってさらに低減できます。
Huang Renxun 氏は基調講演の中で、主に適応ルーティングと輻輳制御という XNUMX つの重要な特性をイーサネットにもたらす Spectrum-X について特に言及しました。 さらに、NVIDIA は以前に IDC と協力して、イーサネット スイッチング ソリューションの商業的価値に関するホワイト ペーパー レポートを発行しました。
大規模な AI アプリケーションでは、将来的にはイーサネットが避けられない選択となるでしょう。 したがって、Spectrum-X の推進において、NVIDIA の立場は、生成 AI の東西トラフィックに対する「最初の」ソリューションである生成 AI クラウドに対して特別に用意されています。 ただし、イーサネットの強力な汎用性以外にも理由がある可能性があります。 AI HPC 負荷の下では、一定の確率で、AI への包括的な移行の可能性があります。 イーサネット.
さまざまな規格の開発は、それ自体が常にお互いの足りないところをチェックし、補い合い、本質を吸収していくプロセスです。 InfiniBand と同様に、固有の欠陥を解決するためのさまざまな緩和ソリューションがあり、InfiniBand のいくつかの拡張属性も AI への応用に非常に役立ちます。 これは選択と技術開発の比較問題です。 たとえこれら XNUMX つにそれぞれのアプリケーション シナリオがあるとしても、NVIDIA が将来 InfiniBand または Ethernet の開発に傾くかどうかは、様子見することができます。
関連製品:
- Mellanox MMA1B00-E100 互換 100G InfiniBand EDR QSFP28 SR4 850nm 100m MTP/MPO MMF DDM トランシーバー モジュール $40.00
- Mellanox MMA1T00-HS 互換 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 光トランシーバー モジュール $200.00
- NVIDIA MMA4Z00-NS400 互換 400G OSFP SR4 フラットトップ PAM4 850nm OM30 で 3m/OM50 で 4m MTP/MPO-12 マルチモード FEC 光トランシーバ モジュール $650.00
- NVIDIA MMA4Z00-NS-FLT 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $850.00
- NVIDIA MMA4Z00-NS 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $750.00
- NVIDIA MMS4X00-NM 互換 800Gb/s ツインポート OSFP 2x400G PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $1100.00
- Mellanox MFS1S00-H010E互換性のある10m(33ft)200G HDRQSFP56からQSFP56アクティブ光ケーブル $465.00
- Mellanox MFS1S00-H005E互換性のある5m(16ft)200G HDRQSFP56からQSFP56アクティブ光ケーブル $405.00
- Mellanox MCP1650-H003E26 互換 3m (10 フィート) Infiniband HDR 200G QSFP56 - QSFP56 PAM4 パッシブ ダイレクト アタッチ銅線 Twinax ケーブル $80.00
- Mellanox MCP1600-E01AE30 互換 1.5m InfiniBand EDR 100G QSFP28 - QSFP28 銅線直接接続ケーブル $35.00
- Mellanox MCP1600-E002E30 互換 2m InfiniBand EDR 100G QSFP28 - QSFP28 銅直接接続ケーブル $35.00
- HPE(Mellanox)P06248-B22互換1.5m(5ft)Infiniband HDR200GQSFP56から2x100GQSFP56PAM4パッシブブレイクアウト直接接続銅ケーブル $80.00
- Mellanox MC220731V-025互換性のある25m(82ft)56G FDR QSFP +からQSFP +へのアクティブ光ケーブル $132.00
- Mellanox MC2207130-004互換性のある4m(13ft)56G FDR QSFP +からQSFP +への銅線直接接続ケーブル $45.00
- NVIDIA Mellanox MCX653105A-HDAT-SP ConnectX-6 InfiniBand/VPI アダプター カード、HDR/200GbE、シングルポート QSFP56、PCIe3.0/4.0 x16、トール ブラケット $1400.00
- NVIDIA Mellanox MCX653105A-ECAT-SP ConnectX-6 InfiniBand/VPI アダプター カード、HDR100/EDR/100G、シングルポート QSFP56、PCIe3.0/4.0 x16、トール ブラケット $690.00
- NVIDIA Mellanox MCX653106A-ECAT-SP ConnectX-6 InfiniBand/VPI アダプター カード、HDR100/EDR/100G、デュアルポート QSFP56、PCIe3.0/4.0 x16、トール ブラケット $828.00
- NVIDIA Mellanox MCX621102AN-ADAT SmartNIC ConnectX®-6 Dx イーサネット ネットワーク インターフェイス カード、1/10/25GbE デュアルポート SFP28、Gen 4.0 x8、トール & ショート ブラケット $315.00
- NVIDIA Mellanox MCX631102AN-ADAT SmartNIC ConnectX®-6 Lx イーサネット ネットワーク インターフェイス カード、1/10/25GbE デュアル ポート SFP28、Gen 4.0 x8、トール & ショート ブラケット $385.00
- NVIDIA Mellanox MCX4121A-ACAT 互換 ConnectX-4 Lx EN ネットワーク アダプター、25GbE デュアルポート SFP28、PCIe3.0 x 8、トール & ショート ブラケット $249.00