Auf der Computex versprach NVIDIA, mit seiner Spectrum-X-Plattform „verlustfreies Ethernet“ für KI-Workloads bereitzustellen. Wenn Sie Broadcom fragen, ist dies jedoch nicht einmal eine neue Idee. Ram Velaga, Senior Vice President der Core Switching Group bei Broadcom, kommentierte: „An ihrem Gerät gibt es nichts Einzigartiges.“ Er erklärte, dass NVIDIA im Wesentlichen eine vertikal integrierte Ethernet-Plattform aufbaut, die sich dadurch auszeichnet, dass sie Überlastungen so verwaltet, dass sie die Tail-Latenz (hohe Perzentile der Antwortzeit) minimiert und die Zeit für die Erledigung von KI-Jobs verkürzt. Velaga glaubt, dass sich dies nicht von dem unterscheidet, was Broadcom mit seinen Switch-ASICs Tomahawk5 und Jericho3-AI erreicht hat. Er sieht in der Einführung dieses Wechsels auch NVIDIAs Anerkennung der Bedeutung von Ethernet für die Handhabung von GPU-Flows in der KI.
Was NVIDIA betrifft, hat das Unternehmen das InfiniBand-Netzwerk nicht aufgegeben. Tatsächlich investierten sie eine beträchtliche Summe (17 Milliarden US-Dollar) in die Übernahme von Mellanox. InfiniBand eignet sich hervorragend für Benutzer, die eine kleine Anzahl extrem großer Arbeitslasten ausführen, z GPT-3 oder digitale Zwillinge. Gilad Shainer, Vizepräsident für Marketing der Netzwerkabteilung von NVIDIA, erklärte jedoch, dass in bestimmten Umgebungen, insbesondere in mandantenfähigen Clouds, Ethernet die bevorzugte Wahl sei. Shainer gab an, dass die herkömmliche Ethernet-Infrastruktur für kleinere KI/ML-Arbeitslasten gut funktioniert, das Wachstum dieser Arbeitslasten jedoch mittlerweile die Kapazitäten einzelner Knoten übersteigt, was zu langsamen Geschwindigkeiten führt. Die Spectrum-X-Plattform von NVIDIA soll diese Herausforderung meistern.
Es ist zu beachten, dass NVIDIAs Spectrum-X kein eigenständiges Produkt ist. Es handelt sich um eine Kombination aus Hardware und Software mit Kernkomponenten wie dem 51.2 Tbit/s Spectrum-4-Ethernet-Switch von NVIDIA und der BlueField-3-Datenverarbeitungseinheit (DPU). Die Grundidee besteht darin, dass bei gemeinsamer Verwendung von NVIDIAs Switch und DPU zusammenarbeiten, um Verkehrsstaus zu verringern und, wenn man NVIDIA Glauben schenken darf, Paketverluste vollständig zu verhindern.
Obwohl Shainer behauptet, dass es sich hierbei um eine neue Funktionseinheit von NVIDIA handelt, glaubt Velaga, dass die Idee des „verlustfreien Ethernets“ lediglich Marketing ist. „Anstatt es verlustfrei zu nennen, ist es zutreffender zu sagen, dass Sie Überlastungen effektiv bewältigen, bis zu dem Punkt, an dem Sie über eine hocheffiziente Ethernet-Struktur verfügen“, kommentierte er.
Darüber hinaus behauptet Velaga, dass dieses Überlastungsmanagement in Broadcoms neueste Generation von Switch-ASICs integriert sei und nur diese mit SmartNICs oder DPUs von beliebigen Anbietern oder Cloud-Dienstanbietern verwendet werden könnten. „Sie müssen es nicht auf der Netzwerkkarte tun; Sie können von einem Jericho3-AI-Blatt zum anderen Jericho3-AI-Blatt wechseln“, fügte er hinzu.
Auf die Frage nach Broadcoms Tomahawk5 und Jericho3-AI lehnte Shainer einen Vergleich ab und argumentierte, dass Spectrum-X zu einer eigenen Kategorie gehöre und implizierte, dass einige Anbieter einfach „KI“ zu bestehenden Produkten hinzufügen. „Egal wie man es nennt, es gibt nichts, das über Funktionen verfügt, die speziell für KI entwickelt wurden“, sagte er.
Laut Velaga versucht NVIDIA eine vertikale Integration, um der Ethernet-Überlastung entgegenzuwirken. „Der Grund, warum Ethernet heute erfolgreich ist, liegt darin, dass es ein sehr offenes Ökosystem ist“, sagte er. Aus diesem Grund kann es schwierig sein, NVIDIAs Spectrum-X an Cloud-Anbieter zu verkaufen, die eine Anbieterbindung vermeiden möchten. Sie möchten unbedingt eine Situation vermeiden, die zur weit verbreiteten Einführung herstellerunabhängiger Netzwerkbetriebssysteme wie SONiC führt. Dadurch können sie ihre Clouds auf jedem kompatiblen Switch ausführen.
Preislich gesehen unterstützt NVIDIAs Spectrum-4 tatsächlich SONiC sowie seine eigenen Cumulus NOS- und Linux Switch-Treiber. Da die Spectrum-X-Plattform jedoch darauf angewiesen ist, sowohl Spectrum-4 als auch BlueField gleichzeitig zu haben, können Sie nicht einfach einen gegen einen anderen kompatiblen SONiC-Switch oder eine DPU austauschen, ohne die Funktionalität zu verlieren.
Apropos DPUs: Viele große Cloud-Dienstanbieter verfügen bereits über auf ihre Umgebungen zugeschnittene SmartNICs. Amazon Web Services hat mit Nitro und Google einen ASIC-basierten Dienst mitentwickelt SmartNIC mit Intel, und Microsoft hat Fungible im Januar übernommen. Diese Geräte sind für Cloud-Anbieter von großem Wert, da sie dies zulassen offLaden allgemeiner Netzwerk-, Speicher- und Sicherheits-Workloads, wodurch CPUs für die Ausführung von Mandanten-Workloads frei werden.
Shainer erklärte, dass es durchaus machbar sei. Er glaubt, dass Cloud-Anbieter ihre vorhandenen DPUs nutzen können, um ihre Infrastruktur zu verwalten und den Nord-Süd-Verkehr zu kontrollieren, während sie gleichzeitig NVIDIAs BlueField-3 verwenden, um den Ost-West-Verkehr zwischen Knoten im Cluster zu verwalten.
Er fügte hinzu, dass nichts die Leute davon abhält, die Switches oder DPUs von NVIDIA als eigenständige Produkte einzusetzen. „Wenn jemand unsere Switches nutzen und seine eigene Lösung entwickeln möchte, freuen wir uns darüber. Wenn jemand unsere DPUs und die Switches eines anderen verwenden möchte, dann machen Sie natürlich weiter. Sie können diese Komponenten selbst entwickeln“, sagte Shainer.
Velaga von Broadcom ist sich jedoch nicht sicher, wie die Kunden diese Idee annehmen würden. „Es ist schwer zu sagen, wie der Wert vertikal integrierter Ethernet-Lösungen in einer Welt vermarktet werden würde, in der alles kaputt geht“, kommentierte er.
Ähnliche Produkte:
- OSFP-400G-FR4 400G FR4 OSFP PAM4 CWDM4 2 km LC SMF FEC Optisches Transceiver-Modul $900.00
- OSFP-400G-DR4+ 400G OSFP DR4+ 1310 nm MPO-12 2 km optisches SMF-Transceiver-Modul $879.00
- OSFP-400G-LR4 400G LR4 OSFP PAM4 CWDM4 LC 10 km optisches SMF-Transceiver-Modul $1199.00
- OSFP-400G-SR4-FLT 400G OSFP SR4 Flat Top PAM4 850 nm 30 m auf OM3/50 m auf OM4 MTP/MPO-12 optisches Multimode-FEC-Transceiver-Modul $900.00
- QSFP-DD-400G-LR4 400G QSFP-DD LR4 PAM4 CWDM4 10 km LC SMF FEC Optisches Transceiver-Modul $650.00
- QSFP-DD-400G-SR4.2 400 Gbit/s QSFP-DD SR4 BiDi PAM4 850 nm/910 nm 100 m/150 m OM4/OM5 MMF MPO-12 FEC Optisches Transceiver-Modul $1000.00
- QSFP112-400G-DR4 400G QSFP112 DR4 PAM4 1310 nm 500 m MTP/MPO-12 mit optischem KP4 FEC-Transceiver-Modul $1350.00
- QSFP112-400G-FR4 400G QSFP112 FR4 PAM4 CWDM 2 km Duplex LC SMF FEC Optisches Transceiver-Modul $1760.00
- QSFP112-400G-SR4 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC Optisches Transceiver-Modul $990.00
- QSFP-DD-400G-DR4 400G QSFP-DD DR4 PAM4 1310 nm 500 m MTP / MPO SMF FEC Optisches Transceiver-Modul $450.00
- QSFP-DD-400G-SR8 400G QSFP-DD SR8 PAM4 850 nm 100 m optisches MTP / MPO OM3 FEC-Transceiver-Modul $180.00
- QSFP-DD-800G-DR8 800G-DR8 QSFP-DD PAM4 1310nm 500m DOM MTP/MPO-16 SMF Optisches Transceiver-Modul $1300.00
- OSFP-800G-SR8 OSFP 8x100G SR8 PAM4 850nm MTP/MPO-16 100m OM4 MMF FEC Optisches Transceiver-Modul $750.00
- QSFP-DD-800G-DR8D QSFP-DD 8x100G DR PAM4 1310nm 500m DOM Dual MPO-12 SMF Optisches Transceiver-Modul $1500.00
- NVIDIA MCX623106AN-CDAT SmartNIC ConnectX®-6 Dx EN Netzwerkschnittstellenkarte, 100 GbE Dual-Port QSFP56, PCIe4.0 x 16, hohe und kurze Halterung $1200.00
- NVIDIA Mellanox MCX516A-CCAT SmartNIC ConnectX®-5 EN Netzwerkschnittstellenkarte, 100 GbE Dual-Port QSFP28, PCIe3.0 x 16, hohe und kurze Halterung $985.00