Если углубиться в область вычислительных сетей ИИ, то можно обнаружить, что на рынке представлены две основные архитектуры: InfiniBand и RoCEv2.
Эти две сетевые архитектуры конкурируют друг с другом по производительности, стоимости, универсальности и другим ключевым параметрам. Мы проанализируем технические характеристики этих двух архитектур, сценарии их применения в интеллектуальных вычислительных сетях ИИ, а также их соответствующие преимущества и ограничения. Целью этой статьи является оценка потенциальной ценности применения и будущего направления развития InfiniBand и RoCEv2 в вычислительных сетях ИИ, чтобы обеспечить глубокое понимание и профессиональное руководство для отрасли.
InfiniBand
Сетевая архитектура Сети InfiniBand в основном централизованно управляются через менеджера подсети (SM). SM обычно развертывается на сервере, подключенном к подсети, и действует как центральный контроллер сети. В подсети может быть несколько устройств, настроенных как SM, но только одно назначается главным SM, который отвечает за управление всеми коммутаторами и сетевыми картами через внутреннее распределение и загрузку сообщений с данными управления (MAD). Каждый порт сетевой карты и чип коммутатора идентифицируются уникальным идентификатором (локальный идентификатор, LID), назначаемым SM для обеспечения уникальности и точности устройства в сети. Основные обязанности SM включают в себя поддержание маршрутной информации сети и расчет и обновление таблицы маршрутизации чипа коммутации. Функция агента SM (SMA) внутри сетевой карты позволяет сетевой карте независимо обрабатывать сообщения, отправленные SM, без вмешательства сервера, тем самым повышая автоматизацию и эффективность сети.
Схема архитектуры сети InfiniBand
- Механизм управления потоком сети InfiniBand
Сеть InfiniBand основана на кредитном механизме, и каждое соединение оснащено предустановленным буфером. Отправитель начнет отправлять данные только после подтверждения того, что у получателя достаточно буфера, и объем отправленных данных не может превышать максимальную емкость предустановленного буфера, доступную в настоящее время получателю. Когда принимающая сторона получает сообщение, она освобождает буфер и информирует отправляющую сторону о текущем доступном предустановленном размере буфера, тем самым поддерживая бесперебойную работу сети и непрерывность передачи данных.
- Возможности сети InfiniBand:
Управление потоком на уровне ссылок и адаптивная маршрутизация Сети InfiniBand используют механизмы управления потоком на уровне ссылок для предотвращения отправки избыточных данных, тем самым избегая переполнения буфера или потери пакетов данных. В то же время технология адаптивной маршрутизации сети InfiniBand может выполнять динамический выбор маршрутизации на основе конкретных обстоятельств каждого пакета данных, достигая оптимизации сетевых ресурсов в реальном времени и оптимальной балансировки нагрузки в сверхкрупномасштабных сетевых средах.
RoCEv2
Сетевая архитектура Протокол RoCE (RDMA over Converged Ethernet) — это кластерный сетевой протокол связи, который может выполнять RDMA (Remote Direct Memory Access) в Ethernet. Существует две основные версии протокола: RoCEv1 и RoCEv2. Как протокол канального уровня, RoCEv1 требует, чтобы обе взаимодействующие стороны находились в одной сети уровня 2. RoCEv2 — это сетевой протокол уровня, который использует сетевой уровень Ethernet и транспортный уровень UDP для замены сетевого уровня InfiniBand, тем самым обеспечивая лучшую масштабируемость. В отличие от централизованного управления сетями InfiniBand, RoCEv2 использует чисто распределенную архитектуру, обычно состоящую из двух уровней, что имеет значительные преимущества в масштабируемости и гибкости развертывания.
Архитектурная схема сети RoCEv2
- Механизм управления потоком сети RoCEv2
Priority Flow Control (PFC) — это стратегия управления потоком пошагово, которая в полной мере использует кэш коммутатора путем правильной настройки водяного знака для достижения передачи без потерь в сетях Ethernet. Когда буфер нисходящего порта коммутатора перегружен, коммутатор запрашивает у восходящего устройства прекращение передачи. Отправленные данные будут сохранены в кэше нисходящего коммутатора. Когда кэш вернется в нормальное состояние, порт запросит возобновление отправки пакетов данных, тем самым поддерживая бесперебойную работу сети. Explicit Congestion Notification (ECN) определяет управление потоком и механизм уведомления о сквозной перегрузке на основе уровня IP и транспортного уровня. Цель управления перегрузкой достигается путем передачи определенной информации о перегрузке на сервер на коммутаторе, а затем сервер отправляет ее клиенту, чтобы уведомить исходный конец о необходимости замедлиться. Уведомление о квантованной перегрузке центра обработки данных (DCQCN) представляет собой комбинацию механизмов явного уведомления о перегрузке (ECN) и приоритетного управления потоком (PFC), разработанных для поддержки сквозной связи Ethernet без потерь. Основная концепция заключается в использовании ECN для уведомления отправителя о необходимости снижения скорости передачи при возникновении перегрузки сети, предотвращения ненужной активации PFC и предотвращения переполнения буфера, вызванного сильной перегрузкой. Благодаря этому детальному управлению потоком DCQCN может избегать потери данных из-за перегрузки, поддерживая при этом эффективную работу сети.
- Сетевые возможности RoCEv2: высокая совместимость и оптимизация затрат
Сети RoCE используют технологию RDMA для эффективной передачи данных без использования циклов ЦП удаленных серверов, тем самым полностью используя полосу пропускания и повышая масштабируемость сети. Такой подход значительно снижает задержку сети и увеличивает пропускную способность, улучшая общую производительность сети. Еще одним существенным преимуществом решения RoCE является то, что его можно легко интегрировать в существующую инфраструктуру Ethernet, что означает, что предприятия могут достичь скачка производительности без необходимости инвестировать в новое оборудование или заменять его. Этот экономически эффективный метод модернизации сети имеет решающее значение для сокращения капитальных затрат предприятия, что делает RoCE предпочтительным решением для повышения производительности сети в интеллектуальных вычислительных центрах.
Технические различия между InfiniBand и RoCEv2
Разнообразные требования к сетям на рынке привели к совместной разработке сетевых архитектур InfiniBand и RoCEv2. Сети InfiniBand продемонстрировали значительные преимущества в производительности сервисов на уровне приложений благодаря своим передовым технологиям, таким как эффективная производительность пересылки, быстрое время восстановления после сбоев, улучшенная масштабируемость и эффективность эксплуатации и обслуживания. В частности, они могут обеспечить превосходную производительность пропускной способности сети в крупномасштабных сценариях.
Сравнительная таблица сетей InfiniBand и технологий RoCEv2
Сеть RoCEv2 пользуется популярностью из-за своей высокой универсальности и низкой стоимости. Она не только подходит для построения высокопроизводительных сетей RDMA, но и легко совместима с существующей инфраструктурой Ethernet. Это дает RoCEv2 очевидные преимущества в широте и применимости и может соответствовать сетевым приложениям различных масштабов и потребностей. Соответствующие характеристики и преимущества этих двух архитектур предоставляют множество вариантов для проектирования сетей вычислительных центров ИИ для удовлетворения конкретных потребностей разных пользователей.
Сопутствующие товары:
- Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC $650.00
- NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $850.00
- NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $750.00
- NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1100.00
- Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1200.00
- Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера $800.00
- Mellanox MMA1T00-HS, совместимый с 200G Infiniband HDR QSFP56 SR4, 850 нм, 100 м, MPO-12, модуль оптического приемопередатчика APC OM3/OM4 FEC PAM4 $200.00
- NVIDIA MCA7J60-N004 Совместимый кабель длиной 4 м (13 футов) 800G с двумя портами OSFP для 2x400G OSFP InfiniBand NDR Breakout Active Copper Cable $800.00
- NVIDIA MCP7Y60-H01A Совместимый пассивный кабель прямого подключения 1.5 м (5 футов) 400G OSFP к 2x200G QSFP56 $116.00
- Mellanox MCP1600-E00AE30 Совместимый 0.5-метровый InfiniBand EDR 100G медный кабель прямого подключения QSFP28-QSFP28 $25.00
- Плата адаптера NVIDIA Mellanox MCX653106A-ECAT-SP ConnectX-6 InfiniBand/VPI, HDR100/EDR/100G, двухпортовый QSFP56, PCIe3.0/4.0 x16, высокий кронштейн $828.00
- Плата адаптера NVIDIA Mellanox MCX653105A-ECAT-SP ConnectX-6 InfiniBand/VPI, HDR100/EDR/100G, однопортовый QSFP56, PCIe3.0/4.0 x16, высокий кронштейн $690.00