NVIDIA ConnectX-7 400GbE и NDR Infiniband NIC Введение

Сетевые адаптеры семейства NVIDIA ConnectX-7 поддерживают протоколы InfiniBand и Ethernet, предоставляя универсальное решение для широкого спектра сетевых потребностей. Эти адаптеры предназначены для обеспечения интеллектуальных, масштабируемых и многофункциональных сетевых возможностей, отвечающих требованиям традиционных корпоративных приложений, а также высокопроизводительных рабочих нагрузок в области искусственного интеллекта, научных вычислений и гипермасштабируемых облачных центров обработки данных.

Сетевые адаптеры ConnectX-7 доступны в двух различных форм-факторах: вертикальные карты PCIe и карты Open Compute Project (OCP) Spec 3.0. Эта гибкость позволяет пользователям выбирать адаптер, который лучше всего соответствует их конкретным требованиям развертывания.

Сети со скоростью 400 Гбит/с — это новая возможность, которую поддерживают слоты PCIe Gen5 x16. Рассмотрим конфигурацию для использования NDR 400 Гбит/с. InfiniBand/400ГбЭ.

1-й снимок NVIDIA ConnectX 7 400G OSFP

Угол 1 выстрел NVIDIA ConnectX 7 400G OSFP

Обзор аппаратного обеспечения адаптера MCX75310AAS-NEAT

ConnectX-7 (MCX75310AAS-NEAT) — это низкопрофильная карта, предназначенная для слотов PCIe Gen5 x16. На изображении ниже показана полноразмерная скоба, но в коробке также есть низкопрофильная скоба.

Передняя панель NVIDIA ConnectX 7 400G OSFP

Перед NVIDIA ConnectX 7 400G OSFP

Стоит отметить размеры охлаждающего решения. Однако NVIDIA не раскрывает спецификации мощности этих сетевых адаптеров.

2-й снимок NVIDIA ConnectX 7 400G OSFP

Угол 2 выстрел NVIDIA ConnectX 7 400G OSFP

Вот обратная сторона карты с задней панелью радиатора.

Задняя сторона карты NVIDIA ConnectX 7 400G OSFP

Задняя сторона карты NVIDIA ConnectX 7 400G OSFP

Вот вид карты сбоку от разъема PCIe Gen5 x16.

Угол разъема NVIDIA ConnectX 7 400G OSFP

Угол разъема NVIDIA ConnectX 7 400G OSFP

Это еще один вид карты сверху.

NVIDIA ConnectX 7 400G OSFP, верхний угол

NVIDIA ConnectX 7 400G OSFP, верхний угол

Это вид со стороны воздушного потока большинства серверов.

NVIDIA ConnectX 7 400G OSFP Воздушный поток сзади-на-перед 2

Это плоская однопортовая карта, работающая на скорости 400 Гбит/с. Он обеспечивает огромную пропускную способность.

Установка адаптера NVIDIA ConnectX-7 400G

Одним из наиболее важных аспектов такой карты является ее установка в систему, которая может воспользоваться ее скоростью.

Процедура установки плат адаптера ConnectX-7 включает следующие шаги:

  1. Проверьте аппаратные и программные требования системы.
  2. Обратите внимание на воздушный поток в хост-системе.
  3. Соблюдайте меры предосторожности.
  4. Распакуйте пакет.
  5. Следуйте контрольному списку перед установкой.
  6. (Дополнительно) Замените полноразмерный монтажный кронштейн прилагаемым коротким кронштейном.
  7. Установите карту адаптера ConnectX-7 PCle x16/плату адаптера ConnectX-7 2x PCle x16 Socket Direct в систему.
  8. Подключите кабели или модули к плате.
  9. Определите ConnectX-7 в системе.
Supermicro SYS 111C NR с адаптером NVIDIA ConnectX 7 400 Гбит/с 1

Supermicro SYS 111C NR с адаптером NVIDIA ConnectX 7 400 Гбит/с 1

К счастью, мы успешно установили эти устройства на серверы Supermicro SYS-111C-NR 1U и Supermicro SYS-221H-TNR 2U, и они работают нормально.

Supermicro SYS 111C NR с адаптером NVIDIA ConnectX 7 400 Гбит/с 2

Supermicro SYS 111C NR с адаптером NVIDIA ConnectX 7 400 Гбит/с 2

SYS-111C-NR — это однослотовый узловой сервер, обеспечивающий большую гибкость, поскольку нам не нужно беспокоиться о соединениях между слотами при настройке системы. На скоростях 10/40 Гбит/с или даже 25/50 Гбит/с ведутся дискуссии о проблемах с производительностью из-за соединений между слотами ЦП. С появлением 100GbE проблема наличия сетевого адаптера для каждого процессора во избежание соединений между слотами стала более заметной и распространенной. Влияние еще более выражено и серьезно при использовании сетей со скоростями 400GbE. Для двухслотовых серверов, использующих одну сетевую карту 400GbE, стоит рассмотреть вариант с несколькими хост-адаптерами, которые подключаются непосредственно к каждому процессору.

OSFP против QSFP-DD

Как только карты были установлены, перед нами встала следующая задача. Эти карты используют каркасы OSFP, но наш коммутатор 400GbE использует QSFP-DD.

Supermicro SYS 111C NR с адаптером NVIDIA ConnectX 7 400 Гбит/с 4

Supermicro SYS 111C NR с адаптером NVIDIA ConnectX 7 400 Гбит/с 4

Эти два стандарта имеют некоторые различия в уровнях мощности и физической конструкции. можно конвертировать QSFP-DD к OSFP, но обратное невозможно. Если вы никогда не видели оптику OSFP или ЦАП, у них есть свои уникальные решения для управления температурным режимом. QSFP-DD обычно использует радиатор поверх сокета, в то время как OSFP обычно включает решение для охлаждения ЦАП OSFP и оптики в лаборатории.

Разъемы OSFP и QSFP-DD 1

Разъемы OSFP и QSFP-DD 1

Это сложно. Как OSFP DAC, так и OSFP-QSFP-DD DAC используют решение для охлаждения радиатора. И из-за прямого охлаждения на ЦАП штекер OSFP не вставляется в порт OSFP на Сетевая карта ConnectX-7.

NVIDIA, скорее всего, использует OSFP, потому что у него более высокий уровень мощности. OSFP позволяет использовать оптику мощностью 15 Вт, а QSFP-DD поддерживает только 12 Вт. Наличие более высокого потолка мощности может облегчить раннее внедрение на этапе раннего внедрения, что является одной из причин, по которой доступны такие продукты, как модуль CFP24 мощностью 8 Вт.

По возможности учитывайте размер радиатора на стороне OSFP вставки ConnectX-7. Если вы привыкли к QSFP/QSFP-DD, все устройства будут подключаться и работать нормально, но столкновение с незначительной проблемой, такой как размер разъема, может создать более серьезную проблему. Однако, если вы являетесь поставщиком решений, это также возможность предоставить профессиональную сервисную поддержку. Такие дистрибьюторы, как NVIDIA и PNY, также продают кабели LinkX, что было бы более удобным вариантом. Это ценный урок.

Далее, давайте все это настроим и приступим к работе.

Настройка программного обеспечения NDR InfiniBand и 400GbE

Помимо физической установки, мы также работали над программным обеспечением на сервере. К счастью, это была самая легкая часть. Мы использовали адаптер ConnectX-2910 серии MT7 от Supermicro.

NVIDIA MT2910 Lшв

NVIDIA MT2910 Lшв

Выполнив быструю установку и перезагрузку OFED (OpenFabrics Enterprise Distribution),

мы подготовили систему.

NVIDIA MT2910 Lshw после установки OFED

NVIDIA MT2910 Lshw после установки OFED

Поскольку мы используем коммутатор Broadcom Tomahawk 4 в Ethernet и работаем непосредственно в режиме InfiniBand, нам также необходимо изменить тип соединения.

Этот процесс прост и аналогичен изменению порта Mellanox ConnectX VPI на Ethernet или InfiniBand в Linux.

Ниже приведен основной процесс:

0. Установите OFED и обновите прошивку

Это необходимый шаг для обеспечения правильной работы карты.

Во время установки MLNX_OFED_LINUX NVIDIA ConnectX 7 Mellanox Technologies MT2910 MT2910 Series

Во время установки MLNX_OFED_LINUX NVIDIA ConnectX 7 Mellanox Technologies MT2910 MT2910 Series

Процесс довольно прост. Сначала загрузите необходимую версию для вашей операционной системы и используйте сценарий, предоставленный в загрузке, для установки драйвера. Стандартный установщик также обновит прошивку карты.

NVIDIA ConnectX 7 MT2910 MT2910 MLNX_OFED_LINUX Установка обновления прошивки

NVIDIA ConnectX 7 MT2910 MT2910 MLNX_OFED_LINUX Установка обновления прошивки

После того, как мы установили OFED после перезагрузки сервера, мы видим, что NVIDIA ConnectX-7 MCX75310AAS-NEAT поддерживает 400GbE и NDR IB (InfiniBand). NDR IB установлен в режим по умолчанию.

NVIDIA ConnectX 7 MCX75310AAS NEAT Mlxconfig

NVIDIA ConnectX 7 MCX75310AAS NEAT Mlxconfig

Если мы хотим превратить его в Ethernet, есть всего три простых шага:

1. Найдите устройство ConnectX-7.

Особенно, если в вашей системе есть другие устройства, вам нужно будет найти правильное устройство для замены. Если у вас есть только одна карта, это легко сделать.

лспци | grep Мелланокс

16:00.0 Контроллер Infiniband: семейство Mellanox Technologies MT2910 [ConnectX-7]

Здесь мы теперь знаем, что наше устройство находится в 16:00.0 (как вы можете видеть на скриншоте выше).

2. Используйте mlxconfig, чтобы изменить устройство ConnectX-7 с NDR Infiniband на Ethernet.

Далее мы будем использовать идентификатор устройства для изменения типа связи Infiniband.

sudo mlxconfig -d 16:00.0 установить LINK_TYPE_P1=2

NVIDIA ConnectX 7 MCX75310AAS NEAT Mlxconfig устанавливает тип соединения Ethernet

NVIDIA ConnectX 7 MCX75310AAS NEAT Mlxconfig устанавливает тип соединения Ethernet

Здесь LINK_TYPE_P1=2 устанавливает P1 (порт 1) на 2 (Ethernet). Значение по умолчанию LINK_TYPE_P1=1 означает, что для P1 (порт 1) установлено значение 1 (NDR InfiniBand). Если вам нужно изменить его обратно, вы можете просто выполнить обратный процесс.

3. Перезагрузите систему

После быстрой перезагрузки у нас теперь есть Ethernet-адаптер ConnectX-7.

Многочисленные варианты скорости Ethernet для NVIDIA ConnectX 7 MT2910

Многочисленные варианты скорости Ethernet для NVIDIA ConnectX 7 MT2910

Этот адаптер 400 Гбит/с по-прежнему поддерживает скорости 1 Гбит/с.

Fпитание и совместимость NVIDIA ConnectX-7

Особенность NVIDIA ConnectX-7
Возможности и совместимость NVIDIA ConnectX-7

эффективности

NVIDIA ConnectX 7 400 Гбит/с NDR Infiniband

NVIDIA ConnectX 7 400 Гбит/с NDR Infiniband

Конечно, есть много других вариантов производительности. Мы можем достичь скоростей от 300 Гбит/с до 400 Гбит/с на InfiniBand и Ethernet. Для Ethernet требуется некоторая помощь, чтобы получить скорость 400GbE, так как начальное соединение составляет всего 200GbE, но мы мало что делаем с точки зрения настройки производительности.

Производительность NVIDIA ConnectX 7 400GbE

Производительность NVIDIA ConnectX 7 400GbE

Эти скорости находятся в диапазоне 400 Гбит/с, что более чем в три раза превышает скорость, к которой мы привыкли. Адаптеры 100 Гбит/с, и в очень короткие сроки. Однако важно подчеркнуть, что разгрузка на скоростях 400GbE очень важна. На скоростях 25GbE и 100GbE мы видели, как устройства типа DPU использовались для разгрузки ЦП для обычных сетевых задач. За последние три года современные ядра ЦП увеличились в скорости на 20–40 процентов, а пропускная способность сети увеличилась с 100GbE до 400GbE. В результате такие технологии, как РДМА offloads и OVS/check offloads стали критически важными для минимизации использования ЦП. Вот почему бывшее подразделение Nvidia Mellanox является одной из немногих компаний, предлагающих сегодня адаптеры 400 Гбит/с.

Supermicro SYS 111C NR с адаптером NVIDIA ConnectX 7 400 Гбит/с

Оставьте комментарий

Наверх