Broadcom vs. NVIDIA: 400G/800G スイッチ レース

Computex で、NVIDIA は、Spectrum-X プラットフォームを使用して AI ワークロードに「ロスレス イーサネット」を提供することを約束しました。 しかし、Broadcom に言わせれば、これは新しいアイデアではありません。 Broadcom のコア スイッチング グループのシニア バイス プレジデントである Ram Velaga 氏は、「同社のデバイスには特別な点は何もありません」とコメントしました。 同氏は、NVIDIA は本質的に垂直統合型イーサネット プラットフォームを構築していると説明し、これはテール レイテンシー (応答時間の高いパーセンタイル) を最小限に抑え、AI ジョブの完了時間を短縮する方法での輻輳管理に優れています。 Velaga は、これは Broadcom が Tomahawk5 および Jericho3-AI スイッチ ASIC で行ったことと変わらないと考えています。 同氏はまた、このスイッチの発売は、AI で GPU フローを処理する際のイーサネットの重要性を NVIDIA が認識したものであると見ています。
Spectrum-X プラットフォーム
NVIDIA に関しては、同社は InfiniBand ネットワーキングを放棄していません。 実際、彼らは Mellanox を買収するために多額の資金 (17 億米ドル) を投資しました。 InfiniBand は、以下のような非常に大規模なワークロードを少数実行するユーザーに非常に適しています。 GPT-3 またはデジタルツイン。 しかし、NVIDIA のネットワーキング部門のマーケティング担当副社長である Gilad Shainer 氏は、特定の環境、特にマルチテナント クラウドではイーサネットが好ましい選択肢であると説明しました。 Shainer 氏は、従来のイーサネット インフラストラクチャは小規模な AI/ML ワークロードにはうまく機能しますが、現在ではこれらのワークロードの増大が単一ノードの能力を超えており、その結果速度が低下していると述べました。 NVIDIA の Spectrum-X プラットフォームは、この課題に対処すると主張しています。
NVIDIA の Spectrum-X はスタンドアロン製品ではないことに注意してください。 これはハードウェアとソフトウェアの組み合わせであり、NVIDIA の 51.2Tbit/秒 Spectrum-4 イーサネット スイッチや BlueField-3 データ処理ユニット (DPU) などのコア コンポーネントを備えています。 基本的な考え方は、NVIDIA のスイッチと DPU を一緒に使用すると、それらが連携してトラフィックの混雑を緩和し、NVIDIA の考えを信じればパケット損失を完全に排除するというものです。
Shainer 氏は、これは NVIDIA の新しい機能ユニットであると主張していますが、Velaga 氏は、「ロスレス イーサネット」というアイデアは単なるマーケティングにすぎないと考えています。 「ロスレスと言うよりも、効率の高いイーサネット構造が得られるまで輻輳を効果的に管理していると言ったほうが正確です」と同氏はコメントした。
さらに、Velaga 氏は、この輻輳管理は Broadcom の最新世代のスイッチ ASIC に組み込まれており、ベンダーまたはクラウド サービス プロバイダーの SmartNIC または DPU で使用できるのはそれらのみであると主張しています。 「NIC 上で行う必要はありません。 ある Jericho3-AI リーフから別の Jericho3-AI リーフに移動できます。」と彼は付け加えました。
Broadcom の Tomahawk5 と Jericho3-AI について尋ねられたとき、Shainer 氏はそれらを比較することを拒否し、Spectrum-X は独自のカテゴリーに属していると主張し、一部のベンダーが既存の製品に単に「AI」を追加しているだけであることを示唆しました。 「何と呼ばれても、AI 向けに特別に設計された機能を備えたものはありません」と彼は言いました。
ブロードコム対NVIDIA
スイッチの眺め スイッチの正面
Velaga 氏によると、NVIDIA はイーサネットの混雑に対処するために垂直統合を試みています。 「イーサネットが今日成功している理由は、それが非常にオープンなエコシステムだからです」と彼は言いました。 このため、NVIDIA の Spectrum-X は、ベンダー ロックインを回避したいクラウド プロバイダーに販売するのが難しいことが判明する可能性があります。 彼らは、SONiC のようなベンダーに依存しないネットワーク オペレーティング システムの広範な採用につながる状況を避けたいと強く考えています。 これにより、互換性のあるスイッチ上でクラウドを実行できるようになります。
価値の点では、NVIDIA の Spectrum-4 は確かに SONiC だけでなく、独自の Cumulus NOS および Linux スイッチ ドライバーもサポートしています。 ただし、Spectrum-X プラットフォームは Spectrum-4 と BlueField の両方を同時に備えることに依存しているため、機能を失うことなく、互換性のある別の SONiC スイッチまたは DPU に単純に交換することはできません。
DPU について言えば、多くの大手クラウド サービス プロバイダーはすでに自社の環境に合わせて調整された SmartNIC を備えています。 アマゾン ウェブ サービスには Nitro があり、Google は ASIC ベースの Smartnic 同社は Intel と提携し、Microsoft は 1 月に Fungible を買収しました。これらのデバイスは、一般的なネットワーク、ストレージ、セキュリティのワークロードをオフロードし、テナントのワークロードを実行するために CPU を解放できるため、クラウド プロバイダーにとって非常に価値があります。
シャイナー氏は、それは完全に実現可能であると述べた。 同氏は、クラウド プロバイダーは既存の DPU を利用してインフラストラクチャを管理し、南北のトラフィックを制御しながら、NVIDIA の BlueField-3 を使用してクラスター内のノード間の東西のトラフィックを管理できると考えています。
同氏は、人々がNVIDIAのスイッチやDPUをスタンドアロン製品として導入することを妨げるものは何もないと付け加えた。 「誰かが当社のスイッチを使用して独自のソリューションを構築したいと考えている場合は、それを歓迎します。 もちろん、誰かが当社の DPU を使用し、他の人のスイッチを使用したい場合は、そのまま使用してください。 これらのコンポーネントは自分で開発できます」と Shainer 氏は言います。
しかし、Broadcom の Velaga 氏は、顧客がこのアイデアをどのように受け入れるかはわかりません。 「あらゆるものが解体されつつある世界で、垂直統合されたイーサネット ソリューションの価値がどのように売り出されるかを言うのは難しいです」と彼はコメントしました。

コメント

上へスクロール