Broadcom vs. NVIDIA: Das 400G/800G-Switch-Rennen

Auf der Computex versprach NVIDIA, mit seiner Spectrum-X-Plattform „verlustfreies Ethernet“ für KI-Workloads bereitzustellen. Wenn Sie Broadcom fragen, ist dies jedoch nicht einmal eine neue Idee. Ram Velaga, Senior Vice President der Core Switching Group bei Broadcom, kommentierte: „An ihrem Gerät gibt es nichts Einzigartiges.“ Er erklärte, dass NVIDIA im Wesentlichen eine vertikal integrierte Ethernet-Plattform aufbaut, die sich dadurch auszeichnet, dass sie Überlastungen so verwaltet, dass sie die Tail-Latenz (hohe Perzentile der Antwortzeit) minimiert und die Zeit für die Erledigung von KI-Jobs verkürzt. Velaga glaubt, dass sich dies nicht von dem unterscheidet, was Broadcom mit seinen Switch-ASICs Tomahawk5 und Jericho3-AI erreicht hat. Er sieht in der Einführung dieses Wechsels auch NVIDIAs Anerkennung der Bedeutung von Ethernet für die Handhabung von GPU-Flows in der KI.
Spectrum-X-Plattform
Was NVIDIA betrifft, hat das Unternehmen das InfiniBand-Netzwerk nicht aufgegeben. Tatsächlich investierten sie eine beträchtliche Summe (17 Milliarden US-Dollar) in die Übernahme von Mellanox. InfiniBand eignet sich hervorragend für Benutzer, die eine kleine Anzahl extrem großer Arbeitslasten ausführen, z GPT-3 oder digitale Zwillinge. Gilad Shainer, Vizepräsident für Marketing der Netzwerkabteilung von NVIDIA, erklärte jedoch, dass in bestimmten Umgebungen, insbesondere in mandantenfähigen Clouds, Ethernet die bevorzugte Wahl sei. Shainer gab an, dass die herkömmliche Ethernet-Infrastruktur für kleinere KI/ML-Arbeitslasten gut funktioniert, das Wachstum dieser Arbeitslasten jedoch mittlerweile die Kapazitäten einzelner Knoten übersteigt, was zu langsamen Geschwindigkeiten führt. Die Spectrum-X-Plattform von NVIDIA soll diese Herausforderung meistern.
Es ist zu beachten, dass NVIDIAs Spectrum-X kein eigenständiges Produkt ist. Es handelt sich um eine Kombination aus Hardware und Software mit Kernkomponenten wie dem 51.2 Tbit/s Spectrum-4-Ethernet-Switch von NVIDIA und der BlueField-3-Datenverarbeitungseinheit (DPU). Die Grundidee besteht darin, dass bei gemeinsamer Verwendung von NVIDIAs Switch und DPU zusammenarbeiten, um Verkehrsstaus zu verringern und, wenn man NVIDIA Glauben schenken darf, Paketverluste vollständig zu verhindern.
Obwohl Shainer behauptet, dass es sich hierbei um eine neue Funktionseinheit von NVIDIA handelt, glaubt Velaga, dass die Idee des „verlustfreien Ethernets“ lediglich Marketing ist. „Anstatt es verlustfrei zu nennen, ist es zutreffender zu sagen, dass Sie Überlastungen effektiv bewältigen, bis zu dem Punkt, an dem Sie über eine hocheffiziente Ethernet-Struktur verfügen“, kommentierte er.
Darüber hinaus behauptet Velaga, dass dieses Überlastungsmanagement in Broadcoms neueste Generation von Switch-ASICs integriert sei und nur diese mit SmartNICs oder DPUs von beliebigen Anbietern oder Cloud-Dienstanbietern verwendet werden könnten. „Sie müssen es nicht auf der Netzwerkkarte tun; Sie können von einem Jericho3-AI-Blatt zum anderen Jericho3-AI-Blatt wechseln“, fügte er hinzu.
Auf die Frage nach Broadcoms Tomahawk5 und Jericho3-AI lehnte Shainer einen Vergleich ab und argumentierte, dass Spectrum-X zu einer eigenen Kategorie gehöre und implizierte, dass einige Anbieter einfach „KI“ zu bestehenden Produkten hinzufügen. „Egal wie man es nennt, es gibt nichts, das über Funktionen verfügt, die speziell für KI entwickelt wurden“, sagte er.
Broadcom vs. NVIDIA
Ansicht des Schalters vor dem Schalter
Laut Velaga versucht NVIDIA eine vertikale Integration, um der Ethernet-Überlastung entgegenzuwirken. „Der Grund, warum Ethernet heute erfolgreich ist, liegt darin, dass es ein sehr offenes Ökosystem ist“, sagte er. Aus diesem Grund kann es schwierig sein, NVIDIAs Spectrum-X an Cloud-Anbieter zu verkaufen, die eine Anbieterbindung vermeiden möchten. Sie möchten unbedingt eine Situation vermeiden, die zur weit verbreiteten Einführung herstellerunabhängiger Netzwerkbetriebssysteme wie SONiC führt. Dadurch können sie ihre Clouds auf jedem kompatiblen Switch ausführen.
Preislich gesehen unterstützt NVIDIAs Spectrum-4 tatsächlich SONiC sowie seine eigenen Cumulus NOS- und Linux Switch-Treiber. Da die Spectrum-X-Plattform jedoch darauf angewiesen ist, sowohl Spectrum-4 als auch BlueField gleichzeitig zu haben, können Sie nicht einfach einen gegen einen anderen kompatiblen SONiC-Switch oder eine DPU austauschen, ohne die Funktionalität zu verlieren.
Apropos DPUs: Viele große Cloud-Dienstanbieter verfügen bereits über auf ihre Umgebungen zugeschnittene SmartNICs. Amazon Web Services hat mit Nitro und Google einen ASIC-basierten Dienst mitentwickelt SmartNIC mit Intel, und Microsoft hat Fungible im Januar übernommen. Diese Geräte sind für Cloud-Anbieter von großem Wert, da sie dies zulassen offLaden allgemeiner Netzwerk-, Speicher- und Sicherheits-Workloads, wodurch CPUs für die Ausführung von Mandanten-Workloads frei werden.
Shainer erklärte, dass es durchaus machbar sei. Er glaubt, dass Cloud-Anbieter ihre vorhandenen DPUs nutzen können, um ihre Infrastruktur zu verwalten und den Nord-Süd-Verkehr zu kontrollieren, während sie gleichzeitig NVIDIAs BlueField-3 verwenden, um den Ost-West-Verkehr zwischen Knoten im Cluster zu verwalten.
Er fügte hinzu, dass nichts die Leute davon abhält, die Switches oder DPUs von NVIDIA als eigenständige Produkte einzusetzen. „Wenn jemand unsere Switches nutzen und seine eigene Lösung entwickeln möchte, freuen wir uns darüber. Wenn jemand unsere DPUs und die Switches eines anderen verwenden möchte, dann machen Sie natürlich weiter. Sie können diese Komponenten selbst entwickeln“, sagte Shainer.
Velaga von Broadcom ist sich jedoch nicht sicher, wie die Kunden diese Idee annehmen würden. „Es ist schwer zu sagen, wie der Wert vertikal integrierter Ethernet-Lösungen in einer Welt vermarktet werden würde, in der alles kaputt geht“, kommentierte er.

Hinterlasse einen Kommentar

Nach oben scrollen