На Computex NVIDIA пообещала предоставить «Ethernet без потерь» для рабочих нагрузок ИИ с помощью своей платформы Spectrum-X. Однако, если вы спросите Broadcom, это даже не новая идея. Рэм Велага, старший вице-президент Core Switching Group в Broadcom, прокомментировал, что «в их устройстве нет ничего уникального». Он объяснил, что NVIDIA, по сути, строит вертикально интегрированную платформу Ethernet, которая превосходно справляется с перегрузками таким образом, что минимизирует хвостовую задержку (высокие процентили времени отклика) и сокращает время выполнения задач ИИ. Велага считает, что это ничем не отличается от того, что сделала Broadcom со своими ASIC для коммутаторов Tomahawk5 и Jericho3-AI. Он также рассматривает запуск этого коммутатора как признание NVIDIA важности Ethernet для обработки потоков GPU в ИИ.
Что касается NVIDIA, то компания не отказалась от сети InfiniBand. Фактически, они вложили значительную сумму денег (17 миллиардов долларов США) в приобретение Mellanox. InfiniBand отлично подходит для пользователей, выполняющих небольшое количество очень больших рабочих нагрузок, таких как GPT-3 или цифровые двойники. Однако Гилад Шейнер, вице-президент по маркетингу сетевого подразделения NVIDIA, объяснил, что в определенных средах, особенно в мультиарендных облаках, предпочтение отдается Ethernet. Шейнер заявил, что традиционная инфраструктура Ethernet хорошо работает для небольших рабочих нагрузок AI/ML, но теперь рост этих рабочих нагрузок превышает возможности одного узла, что приводит к снижению скорости. Платформа NVIDIA Spectrum-X претендует на решение этой проблемы.
Следует отметить, что NVIDIA Spectrum-X не является самостоятельным продуктом. Это сочетание аппаратного и программного обеспечения с основными компонентами, включая Ethernet-коммутатор NVIDIA Spectrum-51.2 4 Тбит/с и блок обработки данных BlueField-3 (DPU). Основная идея заключается в том, что при совместном использовании коммутатора NVIDIA и DPU они совместно уменьшают перегрузку трафика и, если верить NVIDIA, полностью исключают потерю пакетов.
Хотя Шайнер утверждает, что это новый функциональный блок NVIDIA, Велага считает, что идея «Ethernet без потерь» — всего лишь маркетинг. «Вместо того, чтобы называть это без потерь, правильнее сказать, что вы эффективно управляете перегрузкой до такой степени, что у вас есть высокоэффективная структура Ethernet», — прокомментировал он.
Кроме того, Velaga утверждает, что это управление перегрузкой было встроено в последнее поколение ASIC коммутаторов Broadcom, и только они могут использоваться с smartNIC или DPU от любого поставщика или поставщика облачных услуг. «Вам не обязательно делать это на сетевой карте; вы можете перейти от одного листа Jericho3-AI к другому листу Jericho3-AI», — добавил он.
Когда его спросили о Tomahawk5 и Jericho3-AI от Broadcom, Шейнер отказался сравнивать их, заявив, что Spectrum-X принадлежит к отдельной категории, и подразумевая, что некоторые поставщики просто добавляют «ИИ» к существующим продуктам. «Независимо от того, как вы это называете, нет ничего, что имело бы функции, специально разработанные для ИИ», — сказал он.
По словам Велаги, NVIDIA пытается осуществить вертикальную интеграцию для решения проблемы перегрузки Ethernet. «Причина успеха Ethernet сегодня заключается в том, что это очень открытая экосистема, — сказал он. Из-за этого NVIDIA Spectrum-X может оказаться сложной задачей для поставщиков облачных услуг, которые предпочитают избегать привязки к поставщику. Они очень хотят избежать ситуации, которая приведет к широкому распространению сетевых операционных систем, не зависящих от производителя, таких как SONiC. Это позволяет им запускать свои облака на любом совместимом коммутаторе.
Что касается стоимости, NVIDIA Spectrum-4 действительно поддерживает SONiC, а также собственные драйверы Cumulus NOS и Linux Switch. Однако из-за того, что платформа Spectrum-X использует одновременно и Spectrum-4, и BlueField, вы не можете просто заменить один на другой совместимый переключатель SONiC или DPU без потери функциональности.
Говоря о DPU, многие крупные поставщики облачных услуг уже имеют SmartNIC, адаптированные к их средам. У Amazon Web Services есть Nitro, совместно с Google разработанная на основе ASIC SmartNIC с Intel, а Microsoft приобрела Fungible в январе. Эти устройства очень ценны для облачных провайдеров, поскольку они позволяют разгрузить общие сетевые, хранилищные и защитные рабочие нагрузки, освобождая ЦП для выполнения рабочих нагрузок арендаторов.
Шайнер заявил, что это вполне осуществимо. Он считает, что облачные провайдеры могут использовать свои существующие DPU для управления своей инфраструктурой и контролировать трафик север-юг, используя BlueField-3 от NVIDIA для управления трафиком восток-запад между узлами в кластере.
Он добавил, что ничто не мешает людям использовать коммутаторы или DPU NVIDIA как самостоятельные продукты. «Если кто-то хочет использовать наши коммутаторы и создать собственное решение, мы приветствуем это. Если кто-то хочет использовать наши DPU и использовать чужие коммутаторы, конечно, вперед. Вы можете разработать эти компоненты самостоятельно», — сказал Шайнер.
Однако Велага из Broadcom не знает, как клиенты воспримут эту идею. «Трудно сказать, как ценность вертикально интегрированных Ethernet-решений будет продаваться в мире, где все разрушается», — прокомментировал он.
Сопутствующие товары:
-
OSFP-400G-FR4 400G FR4 OSFP PAM4 CWDM4 2 км LC SMF FEC Оптический модуль приемопередатчика $900.00
-
OSFP-400G-DR4+ 400G OSFP DR4+ 1310nm MPO-12 2km SMF Модуль оптического трансивера $879.00
-
OSFP-400G-LR4 400G LR4 OSFP PAM4 CWDM4 LC 10 км SMF оптический модуль приемопередатчика $1199.00
-
OSFP-400G-SR4-FLT 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического приемопередатчика FEC $650.00
-
QSFP-DD-400G-LR4 400G QSFP-DD LR4 PAM4 CWDM4 10 км LC SMF FEC модуль оптического приемопередатчика $650.00
-
QSFP-DD-400G-SR4.2 400 Гбит/с QSFP-DD SR4 BiDi PAM4 850 нм/910 нм 100 м/150 м OM4/OM5 MMF MPO-12 Модуль оптического трансивера FEC $1000.00
-
QSFP112-400G-DR4 400G QSFP112 DR4 PAM4 1310 нм 500 м MTP/MPO-12 с модулем оптического приемопередатчика KP4 FEC $1350.00
-
QSFP112-400G-FR4 400G QSFP112 FR4 PAM4 CWDM 2 км Дуплексный LC SMF FEC Модуль оптического приемопередатчика $1760.00
-
QSFP112-400G-SR4 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC Оптический модуль приемопередатчика $650.00
-
QSFP-DD-400G-DR4 400G QSFP-DD DR4 PAM4 1310nm 500m MTP / MPO SMF FEC модуль оптического приемопередатчика $450.00
-
QSFP-DD-400G-SR8 400G QSFP-DD SR8 PAM4 850nm 100m MTP / MPO OM3 FEC модуль оптического приемопередатчика $180.00
-
QSFP-DD-800G-DR8 800G-DR8 QSFP-DD PAM4 1310nm 500m DOM MTP/MPO-16 Модуль оптического трансивера SMF $1300.00
-
OSFP-800G-SR8 OSFP 8x100G SR8 PAM4 850nm MTP/MPO-16 100m OM4 MMF FEC Модуль оптического трансивера $750.00
-
QSFP-DD-800G-DR8D QSFP-DD 8x100G DR PAM4 1310nm 500m DOM Dual MPO-12 SMF Модуль оптического трансивера $1500.00
-
Сетевая интерфейсная карта NVIDIA MCX623106AN-CDAT SmartNIC ConnectX®-6 Dx EN, двухпортовый порт 100GbE QSFP56, PCIe4.0 x 16, высокий и короткий кронштейн $1200.00
-
NVIDIA Mellanox MCX516A-CCAT SmartNIC ConnectX®-5 EN Сетевая интерфейсная карта, 100GbE, двухпортовый QSFP28, PCIe3.0 x 16, высокий и короткий кронштейн $985.00