Сегодня мы рассмотрим внутреннее устройство большого коммутатора, охватывающего 64 порта 800GbE. Marvell Teralynx 10 — это коммутатор на 51.2 Тбит/с, который должен стать ключевым компонентом в кластерах ИИ к 2025 году. Этот большой сетевой коммутатор весьма интересен.

Marvell приобрела Innovium в 2021 году после нашего исследования коммутатора Innovium Teralynx 7 32x 400GbE. Ранее мы разобрали коммутатор этого стартапа 12.8 Тбит/с (32 порта 400GbE).

Innovium стал самым успешным стартапом своего поколения, значительно проникнув в гипермасштабные центры обработки данных. Например, в 2019 году Intel объявила о приобретении Barefoot Networks для получения чипов коммутаторов Ethernet. Однако к четвертому кварталу 4 года Intel заявила о намерении продать этот бизнес коммутаторов Ethernet. Broadcom занимает значительное положение на рынке коммерческих чипов коммутаторов, в то время как Innovium/Marvell успешно проникли в гипермасштабные центры обработки данных, в отличие от других компаний, которые вложили значительные средства, но потерпели неудачу.

Учитывая масштабы создания кластера ИИ, поколение коммутаторов на 51.2 Тбит/с является существенным. Мы поинтересовались, может ли Marvell обновить разборку Teralynx 2021 7 года и предоставить информацию о новом Marvell Teralynx 10.

Коммутатор имеет шасси 2U, в основном состоящее из каркасов OSFP и каналов воздушного потока. Всего имеется 64 порта OSFP, каждый из которых работает на скорости 800 Гбит/с.

Каждый порт оснащен подключаемой оптикой OSFP, которая, как правило, больше, чем устройства поколения QSFP+/QSFP28, к которым вы, возможно, привыкли.

Marvell представила несколько оптических модулей, используя компоненты от приобретения Inphi. Мы обсуждали это в различных контекстах, таких как модули кремниевой фотоники Marvell COLORZ 800G и Orion DSP для сетей следующего поколения. Этот коммутатор может использовать эти оптические модули, а порты могут работать на скоростях, отличных от 800 Гбит/с.

Одним из интригующих аспектов являются оптические модули большой дальности, способные достигать 800 Гбит/с на сотни километров и более. Эти модули помещаются в каркасы OSFP и не требуют больших оптических коробок большой дальности, которые были отраслевыми стандартами в течение многих лет.

Модули OSFP могут иметь интегрированные радиаторы, что устраняет необходимость в радиаторах в клетках. В некоторых коммутаторах 100GbE и 400GbE оптические клетки требуют радиаторов из-за высокого энергопотребления модулей.

На правой стороне коммутатора расположены порты управления и консоли.

На задней панели коммутатора расположены вентиляторы и блоки питания, каждый со своим вентилятором.

Учитывая, что этот коммутатор может использовать оптические модули, потребляющие около 1.8 кВт, и имеет микросхему коммутатора мощностью 500 Вт, ожидается, что блоки питания будут иметь номинальную мощность более 2 кВт.

Далее давайте углубимся во внутреннее устройство коммутатора, чтобы увидеть, что питает эти каркасы OSFP.
Начнем с корпусов OSFP справа и перейдем к блокам питания и вентиляторам слева.

При открытии выключателя первое, что бросается в глаза, — это большой радиатор.

Этот радиатор, показанный с просроченным паспортом для масштаба, весьма существенен.

Вот вид радиатора снизу.

Сам чип представляет собой компонент мощностью 500 Вт, изготовленный по техпроцессу 5 нм.

Marvell разрешила нам почистить чип, чтобы сделать несколько фотографий без радиатора.

Это дает нам четкое представление о каркасах OSFP без радиатора.

С этой точки зрения имеется всего 32 ячейки OSFP, поскольку печатная плата коммутатора расположена между двумя блоками.

За каркасами OSFP находится чип Teralynx 10.

Для тех, кому интересно, более подробную информацию о Teralynx 10 можно найти в нашей предыдущей диаграмме характеристик.

Одним из заметных отличий является то, что многие компоненты переключателя расположены под углом, а не горизонтально или параллельно краям кристалла переключателя.

Вот фотография коммутатора сверху вниз, демонстрирующая 64-портовый чип коммутатора 800GbE. Для тех, кто знаком с серверными технологиями, мы рассматриваем 800GbE однопортовые сетевые карты в эпоху PCIe Gen6, в то время как сегодня у нас есть 400GbE PCIe Gen5 x16 сетевые карты. Этот чип способен обрабатывать самые быстрые 128 PCIe Gen5 400GbE сетевые карты, доступные сегодня.

Как и многие коммутаторы, коммутатор Teralynx 10 имеет выделенный контроллер управления на основе платы управления Marvell Octeon. Нам сообщили, что другие коммутаторы могут использовать x86.

Твердотельный накопитель M.2 расположен на главной распределительной плате питания.

Интересной особенностью является встроенный слот PCIe для диагностики.

Чуть ниже расположен порт 10Gbase-T, используемый как внутренний интерфейс управления.

Другим аспектом, который следует учитывать, является толщина печатной платы коммутатора. Если бы материнские платы серверов были такими толстыми, многие конструкции серверов 1U столкнулись бы со значительными проблемами охлаждения. С точки зрения охлаждения коммутатор имеет относительно простую установку вентиляторов с четырьмя модулями вентиляторов на задней части корпуса.

У Marvell есть лаборатория в другом здании, где эти переключатели тестируются. Компания временно освободила лабораторию, чтобы мы могли сфотографировать переключатель в работе.

Вот вид сзади.

Рядом с коммутатором Teralynx 10 находится тестовый блок Keysight Ixia AresONE 800GbE.

Генерация трафика 800GbE на одном порту — непростая задача, поскольку он быстрее, чем PCIe Gen5 x16 на серверах. Было интересно увидеть это устройство в работе в лаборатории. Ранее мы приобрели аккуратный подержанный блок Spirent для тестирования 10GbE, но Spirent отказался предоставить лицензию медиа/аналитика. Такие устройства, как этот блок 800GbE, невероятно дороги.

Компания также имеет более крупное шасси в лаборатории для тестирования 100GbE. Как поставщику коммутаторов, Marvell необходимо такое оборудование для проверки производительности в различных условиях.

Ниже приведен пример двух портов 400GbE, работающих через коммутатор Teralynx со скоростью линии приблизительно 99.3%.

Почему стоит выбрать коммутатор со скоростью 51.2 Тбит/с?
Есть две основные силы, движущие внедрение коммутаторов 51.2T на рынке. Первая — это вечно популярная тема ИИ, а вторая — влияние энергопотребления и радикса.

Teralynx 10 от Marvell обеспечивает задержку около 500 наносекунд, обеспечивая при этом огромную пропускную способность. Эта предсказуемая задержка в сочетании с контролем перегрузки, программируемостью и функциями телеметрии чипа коммутатора помогает гарантировать, что большие кластеры будут поддерживать оптимальную производительность. Позволить ускорителям ИИ простаивать в ожидании сети — очень дорогостоящее предложение.

Другой пример — radix. Более крупные коммутаторы могут сократить количество коммутационных слоев, что в свою очередь уменьшает количество коммутаторов, волокон, кабелей и других компонентов, необходимых для подключения кластера.

Поскольку Teralynx 10 может обрабатывать основание 512, подключаясь через до 512x 100GbE-линков, некоторые сети могут сократить потребность в трех уровнях коммутации до всего двух. В крупных учебных кластерах ИИ это не только экономит капитальное оборудование, но и значительно снижает энергопотребление. Marvell привел пример, где большее основание может снизить энергопотребление более чем на 1 МВт.

Marvell также поделился слайдом, на котором показан коммутатор с интересным кулером, выходящим из корпуса. Похоже, это настольный прототип, который мы нашли весьма интригующим.

Наконец, хотя мы часто видим переднюю и даже заднюю часть коммутаторов на фотографиях в Интернете и центрах обработки данных, мы редко видим, как эти коммутаторы работают изнутри. Благодаря Marvell мы смогли увидеть коммутатор в работе и даже разобрать его до кремния.

Innovium, теперь дочерняя компания Marvell, является одной из немногих команд в отрасли, которая успешно конкурировала с Broadcom и достигла гипермасштабных побед. Мы видели, как другие крупные поставщики кремния терпели неудачу в этом процессе. Учитывая рыночный спрос на высокорадикальную, высокопропускную и малозадерживаемую коммутацию в кластерах ИИ, Teralynx 10, вероятно, станет крупнейшей линейкой продуктов компании со времен Teralynx 7. Конкуренция в этой области интенсивна.

Конечно, во всех сетях есть много слоев. Мы могли бы даже провести комплексное исследование оптических модулей, не говоря уже о программном обеспечении, производительности и многом другом. Однако демонстрация того, что происходит внутри этих коммутаторов, все еще весьма увлекательна.
Содержание
ПереключатьСопутствующие товары:
-
Совместимый с OSFP NVIDIA MMS4X50-NM 2x400G FR4 PAM4 1310 нм 2 км DOM двухдуплексный оптический модуль LC SMF
$1200.00
-
Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера
$1199.00
-
NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF
$650.00
-
NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера
$900.00
-
NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF
$650.00
-
QSFP-DD-800G-SR8 800G SR8 QSFP-DD 850nm 100m OM4 MMF MPO-16 Модуль оптического приемопередатчика
$850.00
-
OSFP-800G-2FR4 OSFP 2x400G FR4 PAM4 CWDM4 2 км DOM Dual CS SMF Оптический модуль приемопередатчика
$1500.00
-
QSFP-DD-800G-LR8 QSFP-DD 8x100G LR PAM4 1310nm 10km MPO-16 SMF FEC Модуль оптического трансивера
$1600.00
-
OSFP-800G-FR8L OSFP 800G FR8 PAM4 CWDM8 Duplex LC 2km SMF Оптический модуль приемопередатчика
$3000.00
-
OSFP-800G-SR8D OSFP 8x100G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Оптический модуль приемопередатчика
$650.00
