Сетевой протокол — это набор правил, стандартов или соглашений, установленных для обмена данными в компьютерной сети. На юридическом уровне семиуровневый протокол OSI является международным протоколом.
Из-за требований HPC/AI к высокой пропускной способности сети и низкой задержке TCP/IP постепенно переходит на RDMA в центрах обработки данных. RDMA содержит различные ответвления. Среди них Infiniband разработан специально для RDMA, что гарантирует надежную передачу на аппаратном уровне. Он имеет передовые технологии, но является дорогим. RoCE и iWARP оба основаны на технологии Ethernet RDMA.
В данной статье основное внимание уделяется следующим аспектам обсуждения взаимосвязи между коммутаторами и ИИ.
В: Что такое протокол?
В: Какова роль коммутаторов в архитектуре центра обработки данных?
В: Коммутатор NVIDIA = коммутатор IB?
В: Как понять NVIDIA SuperPOD?
В: Каково текущее положение дел на рынке коммутаторов?
Что такое протокол?
Сетевой протокол — это набор правил, стандартов или соглашений, установленных для обмена данными в компьютерной сети. На юридическом уровне семиуровневый протокол OSI является международным протоколом. В 1980-х годах для стандартизации методов связи между компьютерами и удовлетворения потребностей открытых сетей был предложен протокол OSI (Open System Interconnection), который принял семиуровневую сеть.
- Физический уровень: Он решает, как оборудование взаимодействует друг с другом. Его основная функция — определение стандартов физических устройств (таких как тип интерфейса, скорость передачи и т. д.) для достижения передачи битовых потоков (поток данных, представленный 0 и 1).
- Уровень канала передачи данных: основные функции — кодирование кадров и управление коррекцией ошибок. Конкретная работа заключается в получении данных с физического уровня, инкапсуляции их в кадры и последующей передаче на верхний уровень. Аналогично данные с сетевого уровня могут быть разделены на потоки битов и переданы на физический уровень. Функция коррекции ошибок может быть достигнута, поскольку каждый кадр включает в себя информацию проверки в дополнение к данным, которые должны быть переданы.
- Сетевой уровень: создает логические цепи между узлами и находит адреса через IP (каждый узел в сети имеет IP). Данные, передаваемые на этом уровне, находятся в пакетах.
- Транспортный уровень: отвечает за контроль качества передачи данных. Если происходит потеря пакета, его следует отправить повторно.
- Сеансовый уровень: основная функция — управление сеансовыми соединениями сетевых устройств.
- Уровень представления: в основном отвечает за преобразование формата данных, шифрование и т. д.
- Уровень приложений: предоставляет интерфейсы приложений, которые могут напрямую предоставлять пользователям различные сетевые услуги и выполнять различные сетевые задачи.
TCP/IP — это стек протоколов, включающий различные протоколы. Эти протоколы можно грубо разделить на четыре уровня: прикладной уровень, транспортный уровень, сетевой уровень и уровень канала передачи данных. Фактически, протокол TCP/IP можно рассматривать как оптимизированную версию семиуровневого протокола OSI.

Сравнение семиуровневой сетевой модели OSI и четырехуровневой модели TCP/IP
Из-за требований HPC к высокой пропускной способности сети и низкой задержке, TCP/IP постепенно переходит на RDMA. Существует несколько основных недостатков TCP/IP:
Во-первых, задержка составляет десятки микросекунд. Поскольку стек протоколов TCP/IP требует множественных переключений контекста во время передачи и полагается на ЦП для инкапсуляции, задержка относительно велика.
Во-вторых, процессор сильно загружен. Сеть TCP/IP требует, чтобы хост-процессор участвовал в многократном копировании памяти стека протоколов, а коэффициент корреляции между загрузкой процессора и пропускной способностью сети слишком велик.
RDMA (Remote Direct Memory Access): может получать доступ к данным памяти напрямую через сетевой интерфейс без вмешательства ядра операционной системы. Это обеспечивает высокопроизводительную сетевую связь с низкой задержкой, что особенно подходит для использования в массивно-параллельных компьютерных кластерах.

Три режима RDMA
RDMA не определяет весь стек протоколов, но предъявляет высокие требования к конкретным передачам: например, отсутствие потерь, высокая пропускная способность, низкая задержка и т. д. RDMA включает в себя различные ветви, среди которых Infiniband разработан специально для RDMA и гарантирует надежную передачу на аппаратном уровне. Он технологически продвинут, но дорог. RoCE и iWARP оба основаны на технологии Ethernet RDMA.
Какова роль коммутаторов в архитектуре центра обработки данных?
Коммутаторы и маршрутизаторы работают на разных уровнях. Коммутатор работает на канальном уровне и может инкапсулировать и пересылать пакеты данных на основе идентификации MAC (аппаратный адрес сетевой карты), позволяя различным устройствам взаимодействовать друг с другом. Маршрутизатор, также известный как селектор пути, работает на сетевом уровне для достижения взаимосвязи, реализует адресацию на основе IP и соединяет различные подсети.
Традиционные центры обработки данных часто используют трехслойную архитектуру, а именно уровень доступа, уровень агрегации и уровень ядра. Однако в небольших центрах обработки данных существование уровня агрегации можно игнорировать. Среди них уровень доступа обычно напрямую подключен к серверу, причем коммутатор TOR (Top of Rack) является наиболее часто используемым. Уровень агрегации является «промежуточным (средним) уровнем» между уровнем доступа к сети и уровнем ядра. Коммутаторы ядра обеспечивают пересылку пакетов, входящих и исходящих из центра обработки данных, и обеспечивают подключение для уровня агрегации.
С развитием облачных вычислений недостатки традиционных трехслойных сетей стали более заметными:
- Потеря пропускной способности: Каждая группа коммутаторов агрегации управляет POD (точкой доставки), и каждый POD имеет независимую сеть VLAN. Протокол Spanning Tree Protocol (STP) обычно используется между коммутаторами агрегации и коммутаторами доступа. STP делает доступным только один коммутатор уровня агрегации для сети VLAN, при этом другие уровни агрегации блокируются. Это также делает невозможным горизонтальное расширение уровня агрегации.
- Большая область отказа: из-за алгоритма STP при изменении топологии сети требуется повторная конвергенция, что может привести к сбоям.
- Длительная задержка: С развитием центров обработки данных трафик «восток-запад» значительно увеличился, и связь между серверами в трехуровневой архитектуре должна проходить через коммутаторы слой за слоем, что приводит к большой задержке. Кроме того, рабочая нагрузка на основные коммутаторы и коммутаторы агрегации продолжает расти, а модернизация производительности также приводит к росту затрат.
Архитектура leaf-spine имеет очевидные преимущества, включая плоский дизайн, низкую задержку и высокую пропускную способность. Сеть leaf-spine делает сеть плоской, где коммутаторы leaf эквивалентны традиционным коммутаторам уровня доступа, а коммутаторы spin похожи на коммутаторы core.
Несколько путей динамически выбираются между коммутаторами leaf и spin через ECMP (Equal Cost Multi Path). Когда нет узких мест в портах доступа и восходящих линиях уровня Leaf, эта архитектура обеспечивает отсутствие блокировки. Поскольку каждый Leaf в Fabric подключен к каждому Spine, в случае отказа Spine пропускная способность центра обработки данных ухудшится лишь незначительно.
Переключатель NVIDIA = переключатель IB?
Нет. Платформы NVIDIA Spectrum и Quantum оснащены коммутаторами Ethernet и IB.
Коммутаторы IB в основном эксплуатируются производителем mellanox, которого NVIDIA успешно приобрела в 2020 году. Кроме того, коммутаторы платформы Spectrum от NVIDIA в основном основаны на Ethernet, и ее продукты постоянно итерируются. Spectrum-4, выпущенный в 2022 году, представляет собой коммутатор 400G.

Платформы NVIDIA Spectrum и Quantum
Spectrum-X разработан для генеративного ИИ и оптимизирует ограничения традиционных коммутаторов Ethernet. Двумя ключевыми элементами платформы NVIDIA Spectrum X являются коммутатор NVIDIA Spectrum-4 Ethernet и процессор обработки данных NVIDIA BlueField-3.
Основные преимущества Spectrum-X включают: Расширение RoCE для ИИ и адаптивной маршрутизации (AR) для достижения максимальной производительности библиотеки коллективных коммуникаций NVIDIA (NCCL). NVIDIA Spectrum-X может достигать до 95% эффективной пропускной способности при нагрузке и масштабе гипермасштабных систем.
- Используйте изоляцию производительности, чтобы гарантировать, что в многопользовательской среде с множеством задач одна задача не будет влиять на другую.
- Обеспечьте максимальную производительность сетевой инфраструктуры в случае отказа сетевого компонента.
- Синхронизируйтесь с DPU BlueField-3 для оптимальной производительности NCCL и AI.
- Поддерживайте постоянную и стабильную производительность при выполнении различных рабочих нагрузок ИИ, что имеет решающее значение для достижения соглашений об уровне обслуживания (SLA).
В сетевом режиме IB или Ethernet — важный вопрос. На текущем рынке Ethernet занимает подавляющее большинство рыночной доли, но в некоторых сценариях крупномасштабных вычислений IB выделяется. На конференции ISC 2021 Supercomputing Conference на IB приходилось 70% систем TOP10 и 65% систем TOP100. По мере увеличения объема рассмотрения доля рынка IB уменьшается.
Платформы Spectrum и Quantum нацелены на разные сценарии применения. В видении Nvidia сценарии применения ИИ можно условно разделить на облако ИИ и фабрику ИИ. Традиционные коммутаторы Ethernet и Spectrum-X Ethernet могут использоваться в облаке ИИ, тогда как решения NVLink+InfiniBand требуются в фабрике ИИ.
Как понять NVIDIA SuperPOD?
SuperPOD — это серверный кластер, который объединяет несколько вычислительных узлов для обеспечения большей пропускной способности.
Если взять в качестве примера NVIDIA DGX A100 SuperPOD, то коммутатор, используемый в конфигурации, официально рекомендованной NVIDIA, — это QM9700, который может предоставить 40 портов 200G. На первом уровне сервер DGX A100 имеет в общей сложности 8 интерфейсов, которые подключены к 8 коммутаторам листьев соответственно, поскольку он принимает архитектуру толстого дерева (неконвергентную). 20 серверов образуют SU, поэтому требуется в общей сложности 8 серверов SU. В архитектуре второго уровня, поскольку сеть не сходится и скорость порта постоянна, порт восходящей связи, предоставляемый коммутатором позвоночника, должен быть больше или равен порту нисходящей связи коммутатора позвоночника. Таким образом, 1 SU соответствует 8 коммутаторам листьев и 5 коммутаторам позвоночника, 2 SU соответствуют 16 коммутаторам листьев и 10 коммутаторам позвоночника и т. д. Кроме того, когда количество SU увеличивается до более чем 6, официально рекомендуется добавить коммутатор уровня ядра.

Архитектура NVIDIA DGX A100 SuperPOD Reference
В DGX A100 SuperPOD соотношение сервер: коммутатор в вычислительной сети составляет 1:1.17 (в качестве примера взяты 7 SU); Но в DGX A100 SuperPOD это соотношение составляет 1:0.38. Принимая во внимание требования к хранению и управлению сетью, соотношения сервер: коммутатор для DGX A100 SuperPOD и DGX H100 SuperPOD составляют 1:1.34 и 1:0.50 соответственно.
Что касается портов, то в рекомендуемой конфигурации для DGX H100 каждый SU состоит из 31 сервера. С одной стороны, DGX H100 имеет только 4 интерфейса для вычислений, с другой стороны, коммутатор представляет собой QM9700, предоставляя 64 порта 400G в DGX H100 SuperPOD.
Что касается производительности коммутатора, производительность QM9700 была значительно улучшена в рекомендуемой конфигурации DGX H100 SuperPOD. Коммутаторы Infiniband представляют технологию Sharp. Построив дерево агрегации потоков (SAT) в физической топологии через менеджер агрегации, а затем заставив несколько коммутаторов в дереве выполнять параллельные операции, можно значительно сократить задержку и повысить производительность сети. QM8700/8790+CX6 поддерживает только до 2 SAT, но QM9700/9790+CX7 поддерживает до 64. Количество портов стекирования увеличивается, поэтому количество используемых коммутаторов уменьшается.
Судя по ценам коммутаторов, цена QM9700 примерно в два раза выше, чем у QM8700/8790. Согласно официальному сайту SHI, цена за единицу Quantum-2 QM9700 составляет 38,000 8700 долларов США, а цена за единицу Quantum QM8790/23,000 составляет 17,000 XNUMX/XNUMX XNUMX долларов США соответственно.
Каково текущее положение дел на рынке коммутаторов?
Рынок коммутаторов процветает в краткосрочной перспективе. С развитием ИИ ожидается дальнейшее расширение спроса на рынке и тенденция к высококлассной итерации.
Со структурной точки зрения рынок коммутаторов по-прежнему представляет собой голубой океан: Cisco занимает большую долю, а Arista быстро растет.
С точки зрения размера рынка: в первом квартале 1 года глобальный доход от продаж коммутаторов Ethernet составил 2023 млрд долларов США, увеличившись на 10.021% по сравнению с предыдущим годом. Доход от продаж коммутаторов 31.5G/200G увеличился на 400% по сравнению с предыдущим годом, а доход от продаж коммутаторов 41.3G увеличился на 100% по сравнению с предыдущим годом.
Что касается объема отгрузки через порты, то в первом квартале 229 года было отгружено 2023 млн единиц, что на 14.8% больше, чем в предыдущем году. Порты 200G/400G и 100G увеличились на 224.2% и 17.0% соответственно.
Конкурентная среда коммутатора лучше, чем на рынке серверов. По данным NextPlatform, доля Cisco на рынке в первом квартале 46 года составила 1%, что составляет около 2023 млрд долларов США, что на 4.61% больше, чем в предыдущем году. Arista достигла выручки в размере 33.7 млрд долларов США в первом квартале 1.15 года, что на 2023% больше, чем в предыдущем году, благодаря выдающимся показателям в центре обработки данных.
С точки зрения прибыльности, Cisco и Arista имеют валовую прибыль, близкую к 60%. Относительно благоприятный ландшафт создал хорошую прибыль для производителей в отраслевой цепочке. Хотя валовая прибыль Cisco и Arista показала небольшую тенденцию к снижению, они по-прежнему сохраняют валовую прибыль около 60% в целом. Заглядывая вперед, мы считаем, что рынок коммутаторов, как ожидается, продолжит получать выгоду от развития ИИ.
Сопутствующие товары:
-
Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC $650.00
-
NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $850.00
-
NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $750.00
-
NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1100.00
-
Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1200.00
-
Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера $800.00
-
Mellanox MMA1T00-HS, совместимый с 200G Infiniband HDR QSFP56 SR4, 850 нм, 100 м, MPO-12, модуль оптического приемопередатчика APC OM3/OM4 FEC PAM4 $200.00
-
Совместимость с NVIDIA MFP7E10-N010, 10 волокон, длина 33 м (8 футов), низкие вносимые потери, гнездо-мама Магистральный кабель MPO, полярность B, APC-APC, LSZH, многомодовый OM3 50/125 $47.00
-
Совместимый с NVIDIA MCP7Y00-N003-FLT 3 м (10 фута) 800G OSFP с двумя портами до 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $275.00
-
NVIDIA MCP7Y70-H002 Совместимость с двумя портами 2G, 7 м (400 фута), от 2x200G OSFP до 4x100G QSFP56, медный кабель прямого подключения с пассивной разводкой $155.00
-
NVIDIA MCA4J80-N003-FTF, совместимый с двумя портами 3G, 10 м (800 футов), 2x400G OSFP на 2x400G OSFP, активный медный кабель InfiniBand NDR, плоская верхняя часть на одном конце и ребристая верхняя часть на другом $600.00
-
NVIDIA MCP7Y10-N002, совместимый с двухпортовым OSFP 2G InfiniBand NDR длиной 7 м (800 фута) с 2x400G QSFP112 Breakout ЦАП $200.00