Взгляд внутрь коммутатора Marvell 51.2T (64 порта 800G)

Сегодня мы рассмотрим внутреннее устройство большого коммутатора, охватывающего 64 порта 800GbE. Marvell Teralynx 10 — это коммутатор на 51.2 Тбит/с, который должен стать ключевым компонентом в кластерах ИИ к 2025 году. Этот большой сетевой коммутатор весьма интересен.

Марвелл 51.2Т

Marvell приобрела Innovium в 2021 году после нашего исследования коммутатора Innovium Teralynx 7 32x 400GbE. Ранее мы разобрали коммутатор этого стартапа 12.8 Тбит/с (32 порта 400GbE).

Коммутатор Innovium Teralynx 7 на базе 32x 400GbE

Innovium стал самым успешным стартапом своего поколения, значительно проникнув в гипермасштабные центры обработки данных. Например, в 2019 году Intel объявила о приобретении Barefoot Networks для получения чипов коммутаторов Ethernet. Однако к четвертому кварталу 4 года Intel заявила о намерении продать этот бизнес коммутаторов Ethernet. Broadcom занимает значительное положение на рынке коммерческих чипов коммутаторов, в то время как Innovium/Marvell успешно проникли в гипермасштабные центры обработки данных, в отличие от других компаний, которые вложили значительные средства, но потерпели неудачу.

нарушение искусственного интеллекта создает новые точки входа

Учитывая масштабы создания кластера ИИ, поколение коммутаторов на 51.2 Тбит/с является существенным. Мы поинтересовались, может ли Marvell обновить разборку Teralynx 2021 7 года и предоставить информацию о новом Marvell Teralynx 10.

Вид коммутатора спереди

Коммутатор имеет шасси 2U, в основном состоящее из каркасов OSFP и каналов воздушного потока. Всего имеется 64 порта OSFP, каждый из которых работает на скорости 800 Гбит/с.

Коммутатор имеет корпус 2U.

Каждый порт оснащен подключаемой оптикой OSFP, которая, как правило, больше, чем устройства поколения QSFP+/QSFP28, к которым вы, возможно, привыкли.

Подключаемая оптика OSFP

Marvell представила несколько оптических модулей, используя компоненты от приобретения Inphi. Мы обсуждали это в различных контекстах, таких как модули кремниевой фотоники Marvell COLORZ 800G и Orion DSP для сетей следующего поколения. Этот коммутатор может использовать эти оптические модули, а порты могут работать на скоростях, отличных от 800 Гбит/с.

Кремниевые фотонные модули Marvell COLORZ 800G

Одним из интригующих аспектов являются оптические модули большой дальности, способные достигать 800 Гбит/с на сотни километров и более. Эти модули помещаются в каркасы OSFP и не требуют больших оптических коробок большой дальности, которые были отраслевыми стандартами в течение многих лет.

Эти модули вставляются в каркасы OSFP.

Модули OSFP могут иметь интегрированные радиаторы, что устраняет необходимость в радиаторах в клетках. В некоторых коммутаторах 100GbE и 400GbE оптические клетки требуют радиаторов из-за высокого энергопотребления модулей.

оптические клетки требуют радиаторов

На правой стороне коммутатора расположены порты управления и консоли.

порты управления и консоли

На задней панели коммутатора расположены вентиляторы и блоки питания, каждый со своим вентилятором.

На задней панели коммутатора расположены вентиляторы и блоки питания.

Учитывая, что этот коммутатор может использовать оптические модули, потребляющие около 1.8 кВт, и имеет микросхему коммутатора мощностью 500 Вт, ожидается, что блоки питания будут иметь номинальную мощность более 2 кВт.

500 Вт коммутатор чип

Далее давайте углубимся во внутреннее устройство коммутатора, чтобы увидеть, что питает эти каркасы OSFP.

Начнем с корпусов OSFP справа и перейдем к блокам питания и вентиляторам слева.

Обзор коммутатора

При открытии выключателя первое, что бросается в глаза, — это большой радиатор.

большой радиатор

Этот радиатор, показанный с просроченным паспортом для масштаба, весьма существенен.

Этот радиатор, показанный с просроченным паспортом для масштаба

Вот вид радиатора снизу.

Вот вид радиатора снизу.

Сам чип представляет собой компонент мощностью 500 Вт, изготовленный по техпроцессу 5 нм.

Сам чип представляет собой компонент мощностью 500 Вт, изготовленный по техпроцессу 5 нм.

Marvell разрешила нам почистить чип, чтобы сделать несколько фотографий без радиатора.

без радиатора

Это дает нам четкое представление о каркасах OSFP без радиатора.

четкий вид на каркасы OSFP без радиатора

С этой точки зрения имеется всего 32 ячейки OSFP, поскольку печатная плата коммутатора расположена между двумя блоками.

всего 32 клетки OSFP

За каркасами OSFP находится чип Teralynx 10.

всего 32 клетки OSFP

Для тех, кому интересно, более подробную информацию о Teralynx 10 можно найти в нашей предыдущей диаграмме характеристик.

диаграмма функций

Одним из заметных отличий является то, что многие компоненты переключателя расположены под углом, а не горизонтально или параллельно краям кристалла переключателя.

многие компоненты на переключателе расположены под углом

Вот фотография коммутатора сверху вниз, демонстрирующая 64-портовый чип коммутатора 800GbE. Для тех, кто знаком с серверными технологиями, мы рассматриваем 800GbE однопортовые сетевые карты в эпоху PCIe Gen6, в то время как сегодня у нас есть 400GbE PCIe Gen5 x16 сетевые карты. Этот чип способен обрабатывать самые быстрые 128 PCIe Gen5 400GbE сетевые карты, доступные сегодня.

самые быстрые 128 PCIe Gen5 400GbE NIC

Как и многие коммутаторы, коммутатор Teralynx 10 имеет выделенный контроллер управления на основе платы управления Marvell Octeon. Нам сообщили, что другие коммутаторы могут использовать x86.

Совет директоров Marvell Octeon

Твердотельный накопитель M.2 расположен на главной распределительной плате питания.

Твердотельный накопитель M.2 расположен на главной распределительной плате питания.

Интересной особенностью является встроенный слот PCIe для диагностики.

Интересной особенностью является встроенный слот PCIe для диагностики.

Чуть ниже расположен порт 10Gbase-T, используемый как внутренний интерфейс управления.

Чуть ниже расположен порт 10Gbase-T, используемый как внутренний интерфейс управления.

Другим аспектом, который следует учитывать, является толщина печатной платы коммутатора. Если бы материнские платы серверов были такими толстыми, многие конструкции серверов 1U столкнулись бы со значительными проблемами охлаждения. С точки зрения охлаждения коммутатор имеет относительно простую установку вентиляторов с четырьмя модулями вентиляторов на задней части корпуса.

четыре модуля вентиляторов на задней части корпуса

У Marvell есть лаборатория в другом здании, где эти переключатели тестируются. Компания временно освободила лабораторию, чтобы мы могли сфотографировать переключатель в работе.

эти переключатели проверены

Вот вид сзади.

вид сзади

Рядом с коммутатором Teralynx 10 находится тестовый блок Keysight Ixia AresONE 800GbE.

Тестовый блок Keysight Ixia AresONE 800GbE.

Генерация трафика 800GbE на одном порту — непростая задача, поскольку он быстрее, чем PCIe Gen5 x16 на серверах. Было интересно увидеть это устройство в работе в лаборатории. Ранее мы приобрели аккуратный подержанный блок Spirent для тестирования 10GbE, но Spirent отказался предоставить лицензию медиа/аналитика. Такие устройства, как этот блок 800GbE, невероятно дороги.

800GbE коробка

Компания также имеет более крупное шасси в лаборатории для тестирования 100GbE. Как поставщику коммутаторов, Marvell необходимо такое оборудование для проверки производительности в различных условиях.

работает двойной 400GbE

Ниже приведен пример двух портов 400GbE, работающих через коммутатор Teralynx со скоростью линии приблизительно 99.3%.

коммутатор Teralynx на скорости линии около 99.3%

Почему стоит выбрать коммутатор со скоростью 51.2 Тбит/с?

Есть две основные силы, движущие внедрение коммутаторов 51.2T на рынке. Первая — это вечно популярная тема ИИ, а вторая — влияние энергопотребления и радикса.

Почему стоит выбрать коммутатор на 51.2 Тбит/с

Teralynx 10 от Marvell обеспечивает задержку около 500 наносекунд, обеспечивая при этом огромную пропускную способность. Эта предсказуемая задержка в сочетании с контролем перегрузки, программируемостью и функциями телеметрии чипа коммутатора помогает гарантировать, что большие кластеры будут поддерживать оптимальную производительность. Позволить ускорителям ИИ простаивать в ожидании сети — очень дорогостоящее предложение.

Teralynx 10 обеспечивает задержку около 500 наносекунд.

Другой пример — radix. Более крупные коммутаторы могут сократить количество коммутационных слоев, что в свою очередь уменьшает количество коммутаторов, волокон, кабелей и других компонентов, необходимых для подключения кластера.

Более крупные коммутаторы могут сократить количество коммутационных слоев.

Поскольку Teralynx 10 может обрабатывать основание 512, подключаясь через до 512x 100GbE-линков, некоторые сети могут сократить потребность в трех уровнях коммутации до всего двух. В крупных учебных кластерах ИИ это не только экономит капитальное оборудование, но и значительно снижает энергопотребление. Marvell привел пример, где большее основание может снизить энергопотребление более чем на 1 МВт.

Teralynx 10 может обрабатывать систему счисления с основанием 512

Marvell также поделился слайдом, на котором показан коммутатор с интересным кулером, выходящим из корпуса. Похоже, это настольный прототип, который мы нашли весьма интригующим.

интересный кулер, выступающий из корпуса.

Наконец, хотя мы часто видим переднюю и даже заднюю часть коммутаторов на фотографиях в Интернете и центрах обработки данных, мы редко видим, как эти коммутаторы работают изнутри. Благодаря Marvell мы смогли увидеть коммутатор в работе и даже разобрать его до кремния.

переключатель в работе

Innovium, теперь дочерняя компания Marvell, является одной из немногих команд в отрасли, которая успешно конкурировала с Broadcom и достигла гипермасштабных побед. Мы видели, как другие крупные поставщики кремния терпели неудачу в этом процессе. Учитывая рыночный спрос на высокорадикальную, высокопропускную и малозадерживаемую коммутацию в кластерах ИИ, Teralynx 10, вероятно, станет крупнейшей линейкой продуктов компании со времен Teralynx 7. Конкуренция в этой области интенсивна.

Teralynx 10, вероятно, станет крупнейшей линейкой продуктов компании

Конечно, во всех сетях есть много слоев. Мы могли бы даже провести комплексное исследование оптических модулей, не говоря уже о программном обеспечении, производительности и многом другом. Однако демонстрация того, что происходит внутри этих коммутаторов, все еще весьма увлекательна.

Наверх