主要ベンダーのAIネットワークポジション調査 2023年2023月、Linux FoundationとそのJoint Development Foundationが主導するUltra Ethernet Consortium(UEC)が正式に発足し、激動のAIネットワーク相互接続エコシステムに爆雷を投下しました。 XNUMX年XNUMX月、高度なハードウェアおよびソフトウェアアーキテクチャとさまざまな相互接続ネットワーク実装に焦点を当てたIEEE Hot Interconnects(HOTI)国際フォーラムで、Intel、Nvidia、AMDなどの代表者が「EtherNETかEtherNOTか」という問題に関するパネルディスカッションに参加し、イーサネットに関する見解を表明しました。 新たなAI / MLワークロードは、高性能なネットワーク相互接続の需要を牽引しています。 約XNUMX年前、RDMA over Converged Ethernet(RoCE)は、イーサネットアーキテクチャに低遅延データ伝送を導入しましたが、他のネットワークテクノロジーと比較して、イーサネットは技術開発が遅れているように見えました。 EtherNETとEtherNOTの戦いは再び来るのでしょうか?イーサネット時代は、クラウドベンダー、機器ベンダーなどがそれぞれの利害を持ち、重要な意思決定の時期です。彼らはどのように選択するのでしょうか?
この「EtherNET か EtherNOT」というテーマは、2005 年の HOTI カンファレンスですでに議論されており、その時の結論は次のとおりです。

2023 年の HOTI カンファレンスの議論では、Intel のネットワークおよびエッジ グループの上級研究員兼チーフ ハードウェア アーキテクトである Brad Burres 氏と、AMD のデータセンター GPU システム アーキテクトである Frank Helms 氏がイーサネットを支持しました。 Brad Burres 氏は、どのようなテクノロジーが採用されるとしても、業界全体のコストを削減し、必要なソフトウェア インフラストラクチャを実現するにはオープン エコシステムが必要であると主張しました。プロトコルが成熟するにつれ、別のオープンな標準構造 (CXL など) がすぐに出現しない限り、イーサネットが勝者となるでしょう。 Frank Helms 氏は、世界のスーパーコンピューター TOP500 リストの 11 位、XNUMX 位、XNUMX 位に、それぞれ Frontier、Aurora、LUMI を挙げました。これらはすべて、接続用の Ethernet ベースの HPE Cray Slingshot-XNUMX ネットワーク構造に基づいています。彼はイーサネットが相互接続技術の最前線にあると信じていました。 UEC (Ultra Ethernet Alliance) の出現は、大規模な AI トレーニング クラスター相互接続のためのイーサネットに対する多くの抑制された需要があることも反映しています。 NVIDIA のネットワーク研究ディレクターであるラリー デニソン氏は、イーサネットと AI ワークロードのニーズを満たすことの間にはまだギャップがあると考えていました。イーサネットがこれらすべてのニーズを満たしているとしても、それは依然としてイーサネットでしょうか?どれくらいの期間で達成できるでしょうか?イーサネット市場は確かに巨大であり、消滅することはありませんが、今後数年間でイーサネットの開発速度はこの市場のニーズを満たすことができなくなるでしょう。チューリッヒ工科大学の教授であり、大規模人工知能とネットワークの分野でマイクロソフトのコンサルタントを務めるトルステン・ヘフラー氏は、イーサネットはデータセンターとスーパーコンピュータの現在と未来であるが、私たちが今話しているイーサネットではなく、イーサネットのニーズがあると指摘した。進化する。
オープンエコロジー or ベンダーロックイン?
歴史的に、InfiniBand と Ethernet はどちらもオープン スタンダードであるため、AI/HPC 市場の覇権を争ってきました。ただし、重要な違いは、InfiniBand は現在 Nvidia によって単一ベンダーとしてサポートされているのに対し、Ethernet はマルチベンダーのサポートを受けており、活気に満ちた競争力のあるエコシステムを育成していることです。ただし、AI/HPC ネットワーク ソリューションの分野であっても、イーサネット ソリューションには「部分的にカスタマイズされた」ラベルが付いている場合があり、これがベンダー ロックインにつながる可能性があります。
たとえば、Broadcom の Jericho3 イーサネット スイッチは、高性能の「フル スケジュール ファブリック」モードで実行する場合、ネットワーク ファブリック全体で同じスイッチ チップを使用する必要があります。 Cisco の Silicon One スイッチと Nvidia の Spectrum-X スイッチも同様の状況にあります。高性能要件がベンダー ロックインを引き起こす可能性があります。一部のハイパースケール企業は「カスタム」NIC を設計しており、これがカスタム ネットワークにつながる可能性もあります。したがって、イーサネット ソリューションを選択する場合でも、カスタム実装やベンダー ロックインに遭遇する可能性があります。 AI/HPC ネットワークは、ROCEv2 RDMA プロトコルを部分的または完全に置き換えて、新しいオープンでより強力なトランスポート標準に移行する可能性があります。これが、Beyond Ethernet Alliance が追求しているビジョンです。
AI/ML ネットワーキングテクノロジーのインベントリ
ハイパースケール ベンダーは AI/ML ネットワーク テクノロジーをどのように選択しているのでしょうか? EtherNETですか、それともEtherNOTですか?
アマゾンAWS
Amazon は、InfiniBand RD プロトコルからインスピレーションを得て、HPC ネットワーク用の Scalable Reliable Datagram (SRD) トランスポート プロトコルを開始しました。 Amazon は、独自の Nitro チップをベースにした拡張ネットワーク アダプター (ENA) を「独占的に」使用しています。 SRD は UDP を使用し、複数のリンクにわたるパケット スプレーをサポートし、「順序どおり」のパケット配信要件を排除して、ファブリックの輻輳とテール レイテンシーを軽減します。必要に応じて、パケットの並べ替えは SRD の上位層によって処理されます。 Amazon はネイティブ AI/HPC ネットワーク戦略を追求し続けており、おそらく NVIDIA に対して最も協力的ではありません。
グーグル
Google は、自社の TPU と NVIDIA の GPU を組み合わせて使用しています。 TPU と GPU は相互に競合し、ワークロードの適合性に応じて導入できます。 Google が自社のネットワークで InfiniBand 製品を使用する可能性は低いです。 Google の AI/ML ネットワークは比較的カスタマイズされており、同様の NVLink の「コヒーレントな」アーキテクチャを長年導入してきました。 Google はネットワーク スタックで多くの革新を行い、通常のデータ センターと人工知能データ センターに、微小電気機械システム (MEM ミラー) に基づく回路スイッチである「ネイティブ」光スイッチング システム (OCS) を導入しました。光スイッチは通常、物理スイッチの層を排除し、より高い基数構成をサポートし、消費電力と遅延を削減します。光スイッチは光を「反射」し、ネットワーク プロトコルやネットワーク スイッチのアップグレードには依存しません。欠点は、ミラーの再構成時間が通常数十ミリ秒の範囲で長いため、これらの OCS スイッチが固定容量の「回路」として動作することです。人工知能トレーニング ネットワークの場合、トラフィック パターンは予測可能であるため、これは大きな問題ではありません。
Microsoft
Microsoft はハイパースケール企業の中で最も実用的であり、 パートナーである OpenAI のために人工知能ネットワークを早期に構築しました。 Microsoft はカスタム ネットワーク アダプターを開発し、Azure クラウド用のカスタム RDMA プロトコルを使用しましたが、InfiniBand に対するオープン性、NVIDIA のフルスタック AI/ML ソリューションの採用、OpenAI との緊密な連携により、Microsoft は NVIDIA の優先顧客となっています。 Microsoft は、True Fabric を開発した Fungible を買収しました。True Fabric は、トラフィック、輻輳、エラー制御を処理し、テール レイテンシーを最適化する、UDP ベースの信頼性の高いデータグラム プロトコルです。 Fungible の技術革新の一部は、Microsoft の将来の製品やオープンソースへの貢献に現れる可能性があります。
Meta
Meta は AI 競争のダークホースであり、その人工知能プログラムには次の優れた特徴があります。
- Llama などの基本モデルを使用したオープンソース アプローチを採用しています。
- AI がユーザーフレンドリーになり、PyTorch ソフトウェア フレームワーク/エコシステムを通じてすべてのソフトウェア エンジニアがアクセスできるようになります。
- これにより、オープン コンピューティング プロジェクト コミュニティがオープン ハードウェア イノベーションの重要な柱として確立されます。
- 大規模な GPU クラスターを展開し、レコメンデーション システム (DLRM モデル) によって AI イノベーションの最前線に留まります。
Meta の AI 基礎モデルと PyTorch エコシステムは、巨大なオープンソース AI イノベーション ライブラリを実現し、イーサネットと InfiniBand に基づいた AI/ML クラスターを展開し、DLRM モデルとビデオ トランスコーディング用の ASIC を構築します。
メタは AI を民主化しており、まだ十分に認識されていませんが、この傾向はすぐに変わるでしょう。
オラクル
オラクルはイーサネットをしっかりとサポートしており、InfiniBand は使用しません。 Oracle Cloud Infrastructure (OCI) は、Nvidia GPU と ConnectX NIC を活用して、ROCEv2 RDMA に基づいたスーパークラスターを構築します。 OCI は、DC-QCN のカスタム輻輳通知プロトコルに基づいて個別の RDMA ネットワークを構築し、PFC の使用を最小限に抑え、AI および HPC ワークロードのカスタム プロファイルを微調整します。
NVIDIA
NVIDIA の GPU とそのフルスタック AI/ML ソリューションにより、NVIDIA は市場で誰もが認めるアップストリーム プレーヤーとなっています。 NVIDIA DGX クラウド ソリューションは、Quantum-2 (25.6Tbs) InfiniBand スイッチと ConnectX および Bluefield ネットワーク アダプターを統合します。これらのネットワーク アダプターは、イーサネットと InfiniBand の両方をサポートします。 DGX Cloud に基づくフルスタック InfiniBand ソリューションは、NVIDIA とその OEM によって通信市場およびエンタープライズ市場にも販売されます。ただし、NVIDIA は Spectrum-X スイッチを通じてイーサネットにも多額の投資を行っています。数年前、InfiniBand は AI トレーニングに推奨されるアーキテクチャであり、NVIDIA の統合 DGX クラウド ソリューションにとって理想的な選択肢となっていました。 NVIDIA Spectrum-X イーサネット スイッチ (容量 51.2 Tbs、InfiniBand スイッチの 2 倍) の発売により、NVIDIA は大規模な GPU の導入をイーサネットに切り替え、イーサネットの高いポート速度、コスト効率、そしてスケーラビリティ。 Spectrum-X イーサネット スイッチは、高度な ROCEvXNUMX 拡張機能、つまり RoCE 適応ルーティングと輻輳制御、テレメトリ サポート、コレクティブと呼ばれるネットワーク内コンピューティング (NVIDIA の SHARP 製品経由) をサポートします。
ブロードコム
Broadcom は、スイッチ チップやネットワーク アダプタを含む包括的な AI/HPC ネットワーク ソリューションを提供しています。Broadcom の「Correct Networks」の戦略的買収により、EQDS UDP に基づくトランスポート プロトコルが導入され、すべてのキューイング アクティビティがコア ネットワークから送信ホストまたはリーフ スイッチに移動されます。このアプローチは、パケット スプレー、リーフ スイッチの並べ替えバッファ、パスの再調整、輻輳通知のドロップ、ハードウェア駆動の帯域内障害回復メカニズムを備えた「完全にスケジュールされたファブリック」である Jericho3/Ramon3 チップの組み合わせでのスイッチ最適化をサポートします。Tomahawk (52Tbs) シリーズは、シングル チップの容量を最適化するように設計されており、完全にスケジュールされたファブリックではありません。Tomahawk スイッチは、エッジ キューのほか、グローバル ファブリック レベルの負荷分散やパスの再調整など、ハードウェアのレイテンシが重要な機能もサポートしています。Tomahawk はリーフ スイッチでのパケット ソートをサポートしていないため、パケットの再調整バッファを実装する必要があります。 ネットワークアダプター (エンドポイント)。
Cisco
シスコは最近、Silicon One 52Tb/s スイッチを発売し、ネットワーク ソリューションの多用途性を実証しました。このスイッチは P4 プログラム可能で、さまざまなネットワークの使用例に合わせて柔軟にプログラミングできます。 Cisco の Silicon One ベースのスイッチは、完全にスケジュールされたファブリック、ロード バランシング、ハードウェア障害分離、およびテレメトリのサポートを提供します。シスコは複数の NIC ベンダーと提携して、完全な AI/ML ネットワーク ソリューションを提供します。
まとめ
AI/HPC ネットワークのイーサネット標準化への取り組みはまだ始まったばかりであり、規模の拡大、オープン イノベーション、マルチベンダーの競争によるさらなるコストと電力の削減が必要です。 Super Ethernet Alliance は主要なネットワーク関係者で構成されており、AI/HPC ワークロードに合わせたオープンな「フルスタック」イーサネット ソリューションの作成に取り組んでいます。前述したように、「必要な」AI/HPC ネットワーク テクノロジのほとんどは、さまざまなイーサネット ベンダーやハイパースケーラーによって何らかの形式または方法で導入されています。したがって、標準化の課題は技術的なものではなく、むしろコンセンサスを構築することにあります。
関連製品:
-
QSFP112-400G-SR4 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC 光トランシーバー モジュール $990.00
-
QSFP112-400G-DR4 400G QSFP112 DR4 PAM4 1310nm 500m MTP/MPO-12、KP4 FEC 光トランシーバ モジュール付き $1350.00
-
QSFP112-400G-FR1 4x100G QSFP112 FR1 PAM4 1310nm 2km MTP/MPO-12 SMF FEC 光トランシーバ モジュール $1300.00
-
QSFP112-400G-FR4 400G QSFP112 FR4 PAM4 CWDM 2km デュプレックス LC SMF FEC 光トランシーバー モジュール $1760.00
-
QSFP-DD-400G-SR4 QSFP-DD 400G SR4 PAM4 850nm 100m MTP/MPO-12 OM4 FEC 光トランシーバ モジュール $600.00
-
QSFP-DD-400G-FR4 400G QSFP-DD FR4 PAM4 CWDM4 2km LC SMFFEC光トランシーバーモジュール $600.00
-
QSFP-DD-400G-SR8 400G QSFP-DD SR8 PAM4 850nm 100m MTP / MPO OM3FEC光トランシーバーモジュール $180.00
-
QSFP-DD-400G-DR4 400G QSFP-DD DR4 PAM4 1310nm 500m MTP / MPO SMFFEC光トランシーバーモジュール $450.00
-
QSFP-DD-400G-SR4.2 400Gb/s QSFP-DD SR4 BiDi PAM4 850nm/910nm 100m/150m OM4/OM5 MMF MPO-12 FEC 光トランシーバ モジュール $1000.00
-
OSFP-400G-PSM8 400G PSM8 OSFP PAM4 1550nm MTP/MPO-16 300m SMF FEC 光トランシーバー モジュール $1200.00
-
NVIDIA MMS4X00-NS400 互換 400G OSFP DR4 フラットトップ PAM4 1310nm MTP/MPO-12 500m SMF FEC 光トランシーバー モジュール $800.00
-
OSFP-400G-SR4-FLT 400G OSFP SR4 フラットトップ PAM4 850nm OM30 で 3m/OM50 で 4m MTP/MPO-12 マルチモード FEC 光トランシーバ モジュール $650.00
-
OSFP-400G-SR8 400G SR8 OSFP PAM4 850nm MTP/MPO-16 100m OM3 MMF FEC 光トランシーバー モジュール $480.00
-
OSFP-400G-DR4 400G OSFP DR4 PAM4 1310nm MTP / MPO-12 500m SMFFEC光トランシーバーモジュール $900.00
-
OSFP-800G-SR8D-FLT OSFP 8x100G SR8 フラットトップ PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバ モジュール $850.00
-
OSFP-800G-DR8D-FLT 800G-DR8 OSFP フラットトップ PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバ モジュール $1200.00
-
OSFP-800G-SR8D OSFP 8x100G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $750.00
-
OSFP-800G-DR8D 800G-DR8 OSFP PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $1100.00