Традиционные центры обработки данных претерпели переход от трехуровневой архитектуры к листовой архитектуре, в первую очередь для удовлетворения растущего трафика с востока на запад внутри центра обработки данных. Поскольку процесс миграции данных в облако продолжает ускоряться, масштабы центров обработки данных облачных вычислений продолжают расширяться. Такие приложения, как виртуализация и гиперконвергентные системы, внедренные в этих центрах обработки данных, привели к значительному увеличению трафика с востока на запад — согласно предыдущим данным Cisco, в 2021 году внутренний трафик центров обработки данных составлял более 70% трафика, связанного с центрами обработки данных. .
На примере перехода от традиционной трехуровневой архитектуры к листовой архитектуре количество оптических модулей, необходимых в конечной сетевой архитектуре, может увеличиться в десятки раз.

Требования к сетевой архитектуре для крупномасштабных кластеров ИИ
Учитывая необходимость устранения узких мест в сети, сетевая архитектура для крупномасштабных кластеров ИИ должна соответствовать требованиям высокой пропускной способности, низкой задержки и передачи без потерь. Вычислительные центры ИИ обычно используют сетевую архитектуру Fat-Tree, которая отличается неблокируемой сетью. Кроме того, чтобы избежать узких мест в межузловых соединениях, NVIDIA использует NVLink для обеспечения эффективной связи между GPU. По сравнению с PCIe, NVLink обеспечивает более высокую пропускную способность, выступая в качестве основы для архитектуры общей памяти NVIDIA и создавая новый спрос на оптические соединения между GPU.
Требования к структуре сети A100 и оптическому модулю
Базовая структура развертывания каждого DGX A100 SuperPOD состоит из 140 серверов (каждый сервер с 8 графическими процессорами) и коммутаторов (каждый коммутатор с 40 портами, каждый порт на скорости 200G). Топология сети представляет собой структуру InfiniBand (IB) Fat-Tree. Что касается количества сетевых уровней, то трехуровневая структура сети (серверно-листовой коммутатор-позвоночный коммутатор-ядро коммутатора) развернута на 140 серверов, при этом соответствующее количество кабелей для каждого уровня составляет 1120-1124-1120 соответственно. Предполагая, что между серверами и коммутаторами используются медные кабели, а на основе одного кабеля, соответствующего двум оптическим модулям 200G, соотношение графический процессор:коммутатор:оптический модуль составляет 1:0.15:4. Если используется полностью оптическая сеть, соотношение становится следующим: графический процессор:коммутатор:оптический модуль = 1:0.15:6.


Требования к структуре сети H100 и оптическому модулю
Базовая структура развертывания каждого DGX H100 SuperPOD состоит из 32 серверов (каждый сервер с 8 графическими процессорами) и 12 коммутаторов. Топология сети представляет собой структуру IB Fat-Tree, в которой каждый порт коммутатора работает на скорости 400G и может быть объединен в порт 800G. Для кластера 4SU, предполагающего полностью оптическую сеть и трехуровневую архитектуру Fat-Tree, Оптические модули 400G используются между серверами и конечными коммутаторами, а оптические модули 800G используются между коммутаторами Leaf-Spine и Spine-Core. Требуемое количество оптических модулей 400G составляет 3284=256, а количество оптических модулей 800G — 3282.5=640. Таким образом, соотношение графический процессор:коммутатор:оптический модуль 400G:оптический модуль 800G составляет 1:0.08:1:2.5.

В одном кластере GH200, который состоит из 256 взаимосвязанных суперчиповых графических процессоров, использующих двухуровневую сетевую структуру «толстого дерева», оба уровня построены с помощью коммутаторов NVLink. На первом уровне (между серверами и коммутаторами уровня 1) используется 96 коммутаторов, а на уровне 2 — 36 коммутаторов. Каждый коммутатор NVLink имеет 32 порта, каждый из которых имеет скорость 800G. Учитывая, что совокупная пропускная способность двунаправленного канала NVLink 4.0 составляет 900 ГБ/с, а однонаправленного — 450 ГБ/с, общая пропускная способность восходящего канала для уровня доступа в кластере из 256 карт составляет 115,200 800 ГБ/с. Учитывая архитектуру «толстого дерева» и скорость передачи оптических модулей 100G (800 ГБ/с), общая потребность в оптических модулях 2,304G составляет 200 единицы. Таким образом, внутри кластера GH1 соотношение графических процессоров и оптических модулей составляет 9:200. При соединении нескольких кластеров GH100, ссылающихся на архитектуру H800, в трехуровневой сетевой структуре потребность в графических процессорах для оптических модулей 1G составляет 2.5:1; в двухуровневой сети оно составляет 1.5:200. Таким образом, при соединении нескольких GH800 верхний предел соотношения графического процессора и оптического модуля 1G составляет 9:(2.5+1) = 11.5:XNUMX.


Таким образом, поскольку вычислительные кластеры продолжают повышать производительность сети, спрос на высокоскоростные оптические модули становится более эластичным. Если взять в качестве примера кластеры NVIDIA, то скорость интерфейса сетевой карты, адаптированная картой-ускорителем, тесно связана с пропускной способностью ее сетевого протокола. Графический процессор A100 поддерживает PCIe 4.0 с максимальной однонаправленной пропускной способностью 252 Гбит/с, поэтому скорость сетевой карты PCIe должна быть менее 252 Гбит/с в сочетании с сетевыми картами Mellanox HDR 200 Гбит/с Infiniband. Графический процессор H100 поддерживает PCIe 5.0 с максимальной однонаправленной пропускной способностью 504 Гбит/с, что позволяет использовать его в сочетании с сетевыми картами Mellanox NDR 400 Гбит/с Infiniband. Таким образом, при обновлении с A100 до H100 потребность в соответствующем оптическом модуле увеличивается с 200G до 800G (два порта 400G объединены в один 800G); в то время как GH200 использует NVLink для подключения между картами, при этом однонаправленная пропускная способность увеличена до 450 ГБ/с, что еще больше повышает эластичность спроса 800G. Предположим, кластер H100 обновится с PCIe 5.0 до PCIe 6.0, при этом максимальная однонаправленная пропускная способность увеличится до 1024 Гбит/с. В этом случае скорость сетевой карты уровня доступа может быть увеличена до 800G, что означает, что уровень доступа может использовать оптические модули 800G, а эластичность спроса для одной карты, соответствующей оптическим модулям 800G в кластере, удвоится.
Архитектура и приложение вычислительного кластера Meta ранее выпустили проект «Research SuperCluster» для обучения модели LLaMA. На втором этапе проекта RSC Meta развернула в общей сложности 2,000 серверов A100, содержащих 16,000 100 графических процессоров A2,000. Кластер включает 48,000 коммутаторов и 96,000 200 каналов, что соответствует трехуровневой сетевой архитектуре CLOS. Если используется полная оптическая сеть, это соответствует 100 1 оптических модулей 6G, что означает, что соотношение графических процессоров A100 к оптическим модулям составляет XNUMX:XNUMX, что соответствует ранее рассчитанной архитектуре AXNUMX.

Компания Meta реализовала инфраструктуру обучения для LLaMA3 с использованием графических процессоров H100, которая включает кластеры с InfiniBand и Ethernet, способные поддерживать до 32,000 2 графических процессоров. Что касается решения Ethernet, согласно информации, раскрытой Meta, вычислительный кластер по-прежнему использует архитектуру конвергентной конечной сети. Каждая стойка содержит 1 сервера, подключенных к 400 коммутатору Top-of-Rack (TOR) (с использованием Wedge 252), всего 2 сервера в кластере. В коммутаторах кластера используются стоечные коммутаторы Minipack18 OCP, всего 3.5 коммутаторов кластера, что обеспечивает коэффициент конвергенции 1:18. Имеется 7800 коммутаторов уровня агрегации (с использованием Arista 3R7) с коэффициентом конвергенции 1:400. В кластере в основном используются оптические модули XNUMXG. С точки зрения кластерной архитектуры решение Ethernet по-прежнему требует дальнейших прорывов на уровне протоколов для содействия построению неблокируемой сети с учетом прогресса таких организаций, как Ethernet Alliance.
AWS выпустила второе поколение ультракластеров EC2, которые включают в себя графический процессор H100 и собственное решение Trainium ASIC. Экземпляры AWS EC2 Ultra Clusters P5 (т. е. решение H100) обеспечивают совокупную пропускную способность сети 3200 Гбит/с и поддерживают GPUDirect RDMA с максимальной пропускной способностью сети 20,000 1 графических процессоров. Экземпляры Trn16n (запатентованное решение Trainium) оснащены кластером из 1600 карт, обеспечивающим совокупную пропускную способность сети 30,000 Гбит/с и поддерживающим до 6 XNUMX ASIC в сети, что соответствует XNUMX EFlops вычислительной мощности.


Для соединения между картами AWS EC2 Ultra Clusters используются NVLink (для решения H100) и NeuronLink (для решения Trainium), а для соединения кластеров используется собственный сетевой адаптер EFA. По сравнению с решением Nvidia, запатентованный кластер AWS Trainium ASIC имеет расчетную пропускную способность восходящего канала 100 ГБ на карту (совокупная пропускная способность 1600 ГБ / 16 карт = 100 ГБ), поэтому в настоящее время спрос на 800G оптические модули в архитектуре AWS.
Последний вычислительный кластер Google состоит из массивов TPU, сконфигурированных в виде трехмерного тора. Одномерный тор соответствует каждому ТПУ, соединенному с двумя соседними ТПУ, двумерный тор состоит из двух ортогональных колец, соответствующих каждому ТПУ, соединенному с четырьмя соседними ТПУ; TPUv4 от Google представляет собой трехмерный тор, в котором каждый TPU соединен с шестью соседними TPU.


На основе этого внутри каждого шкафа строится трехмерная сетевая структура из 3=444 TPU. Внешняя часть 64D-структуры соединяется с OCS посредством соединения 3 TPU, соответствующих 4096 шкафам и 64 коммутаторам OCS, что соответствует 48*48=64 оптическим модулям. Внутри используются соединения ЦАП (6144 кабелей), в результате чего соотношение TPU к оптическому модулю составляет 18000:1. В рамках решения OCS оптические модули должны использовать решение по мультиплексированию с разделением по длине волны и добавлять циркуляторы для уменьшения количества волокон, при этом решение оптического модуля имеет настраиваемые функции (1.5G VFR800).
Сопутствующие товары:
-
Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $900.00
-
NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $650.00
-
NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $900.00
-
NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $650.00
-
Совместимость с NVIDIA MMS1Z00-NS400 400G NDR QSFP112 DR4 PAM4 1310 нм 500 м MPO-12 с модулем оптического приемопередатчика FEC $700.00
-
Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера $700.00
-
NVIDIA MMA1Z00-NS400 совместимый модуль оптического приемопередатчика 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC $550.00
-
Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC $550.00
-
OSFP-FLT-800G-PC2M 2 м (7 футов) от 2x400G OSFP до 2x400G OSFP PAM4 Пассивный кабель прямого подключения InfiniBand NDR, плоская верхняя часть на одном конце и плоская верхняя часть на другом $300.00
-
OSFP-800G-PC50CM 0.5 м (1.6 фута), 800G, двухпортовый, от 2x400G OSFP до 2x400G OSFP InfiniBand NDR, пассивный медный кабель прямого подключения $105.00
-
OSFP-800G-AC3M Активный медный кабель OSFP-3G-AC10M, 800 м, 2G, с двумя портами, от 400x2G OSFP до 400xXNUMXG OSFP InfiniBand NDR $600.00
-
OSFP-FLT-800G-AC3M, 3 м (10 футов), 800G, двухпортовый, 2x400G OSFP на 2x400G OSFP, активный медный кабель InfiniBand NDR, плоская верхняя часть на одном конце и плоская верхняя часть на другом $600.00