Связь между коммутаторами и ИИ

23 сентября, 2024

Екатерина

Инженер оптических коммуникаций

Из-за требований HPC/AI к высокой пропускной способности сети и низкой задержке TCP/IP постепенно переходит на RDMA в центрах обработки данных. RDMA содержит различные ответвления. Среди них Infiniband разработан специально для RDMA, что гарантирует надежную передачу на аппаратном уровне. Он имеет передовые технологии, но является дорогим. RoCE и iWARP оба основаны на технологии Ethernet RDMA.

В данной статье основное внимание уделяется следующим аспектам обсуждения взаимосвязи между коммутаторами и ИИ.

В: Что такое протокол?

В: Какова роль коммутаторов в архитектуре центра обработки данных?

В: Коммутатор NVIDIA = коммутатор IB?

В: Как понять NVIDIA SuperPOD?

В: Каково текущее положение дел на рынке коммутаторов?

Содержание

Что такое протокол?

Сетевой протокол — это набор правил, стандартов или соглашений, установленных для обмена данными в компьютерной сети. На юридическом уровне семиуровневый протокол OSI является международным протоколом. В 1980-х годах для стандартизации методов связи между компьютерами и удовлетворения потребностей открытых сетей был предложен протокол OSI (Open System Interconnection), который принял семиуровневую сеть.

Физический уровень: Он решает, как оборудование взаимодействует друг с другом. Его основная функция — определение стандартов физических устройств (таких как тип интерфейса, скорость передачи и т. д.) для достижения передачи битовых потоков (поток данных, представленный 0 и 1).

Уровень канала передачи данных: основные функции — кодирование кадров и управление коррекцией ошибок. Конкретная работа заключается в получении данных с физического уровня, инкапсуляции их в кадры и последующей передаче на верхний уровень. Аналогично данные с сетевого уровня могут быть разделены на потоки битов и переданы на физический уровень. Функция коррекции ошибок может быть достигнута, поскольку каждый кадр включает в себя информацию проверки в дополнение к данным, которые должны быть переданы.

Сетевой уровень: создает логические цепи между узлами и находит адреса через IP (каждый узел в сети имеет IP). Данные, передаваемые на этом уровне, находятся в пакетах.

Транспортный уровень: отвечает за контроль качества передачи данных. Если происходит потеря пакета, его следует отправить повторно.

Сеансовый уровень: основная функция — управление сеансовыми соединениями сетевых устройств.

Уровень представления: в основном отвечает за преобразование формата данных, шифрование и т. д.

Уровень приложений: предоставляет интерфейсы приложений, которые могут напрямую предоставлять пользователям различные сетевые услуги и выполнять различные сетевые задачи.

TCP/IP — это стек протоколов, включающий различные протоколы. Эти протоколы можно грубо разделить на четыре уровня: прикладной уровень, транспортный уровень, сетевой уровень и уровень канала передачи данных. Фактически, протокол TCP/IP можно рассматривать как оптимизированную версию семиуровневого протокола OSI.

Сравнение семиуровневой сетевой модели OSI и четырехуровневой модели TCP/IP

Из-за требований HPC к высокой пропускной способности сети и низкой задержке, TCP/IP постепенно переходит на RDMA. Существует несколько основных недостатков TCP/IP:

Во-первых, задержка составляет десятки микросекунд. Поскольку стек протоколов TCP/IP требует множественных переключений контекста во время передачи и полагается на ЦП для инкапсуляции, задержка относительно велика.

Во-вторых, процессор сильно загружен. Сеть TCP/IP требует, чтобы хост-процессор участвовал в многократном копировании памяти стека протоколов, а коэффициент корреляции между загрузкой процессора и пропускной способностью сети слишком велик.

RDMA (Remote Direct Memory Access): может получать доступ к данным памяти напрямую через сетевой интерфейс без вмешательства ядра операционной системы. Это обеспечивает высокопроизводительную сетевую связь с низкой задержкой, что особенно подходит для использования в массивно-параллельных компьютерных кластерах.

Три режима RDMA

RDMA не определяет весь стек протоколов, но предъявляет высокие требования к конкретным передачам: например, отсутствие потерь, высокая пропускная способность, низкая задержка и т. д. RDMA включает в себя различные ветви, среди которых Infiniband разработан специально для RDMA и гарантирует надежную передачу на аппаратном уровне. Он технологически продвинут, но дорог. RoCE и iWARP оба основаны на технологии Ethernet RDMA.

Какова роль коммутаторов в архитектуре центра обработки данных?

Коммутаторы и маршрутизаторы работают на разных уровнях. Коммутатор работает на канальном уровне и может инкапсулировать и пересылать пакеты данных на основе идентификации MAC (аппаратный адрес сетевой карты), позволяя различным устройствам взаимодействовать друг с другом. Маршрутизатор, также известный как селектор пути, работает на сетевом уровне для достижения взаимосвязи, реализует адресацию на основе IP и соединяет различные подсети.

Традиционные центры обработки данных часто используют трехслойную архитектуру, а именно уровень доступа, уровень агрегации и уровень ядра. Однако в небольших центрах обработки данных существование уровня агрегации можно игнорировать. Среди них уровень доступа обычно напрямую подключен к серверу, причем коммутатор TOR (Top of Rack) является наиболее часто используемым. Уровень агрегации является «промежуточным (средним) уровнем» между уровнем доступа к сети и уровнем ядра. Коммутаторы ядра обеспечивают пересылку пакетов, входящих и исходящих из центра обработки данных, и обеспечивают подключение для уровня агрегации.

С развитием облачных вычислений недостатки традиционных трехслойных сетей стали более заметными:

Потеря пропускной способности: Каждая группа коммутаторов агрегации управляет POD (точкой доставки), и каждый POD имеет независимую сеть VLAN. Протокол Spanning Tree Protocol (STP) обычно используется между коммутаторами агрегации и коммутаторами доступа. STP делает доступным только один коммутатор уровня агрегации для сети VLAN, при этом другие уровни агрегации блокируются. Это также делает невозможным горизонтальное расширение уровня агрегации.

Большая область отказа: из-за алгоритма STP при изменении топологии сети требуется повторная конвергенция, что может привести к сбоям.

Длительная задержка: С развитием центров обработки данных трафик «восток-запад» значительно увеличился, и связь между серверами в трехуровневой архитектуре должна проходить через коммутаторы слой за слоем, что приводит к большой задержке. Кроме того, рабочая нагрузка на основные коммутаторы и коммутаторы агрегации продолжает расти, а модернизация производительности также приводит к росту затрат.

Архитектура leaf-spine имеет очевидные преимущества, включая плоский дизайн, низкую задержку и высокую пропускную способность. Сеть leaf-spine делает сеть плоской, где коммутаторы leaf эквивалентны традиционным коммутаторам уровня доступа, а коммутаторы spin похожи на коммутаторы core.

Несколько путей динамически выбираются между коммутаторами leaf и spin через ECMP (Equal Cost Multi Path). Когда нет узких мест в портах доступа и восходящих линиях уровня Leaf, эта архитектура обеспечивает отсутствие блокировки. Поскольку каждый Leaf в Fabric подключен к каждому Spine, в случае отказа Spine пропускная способность центра обработки данных ухудшится лишь незначительно.

Переключатель NVIDIA = переключатель IB?

Нет. Платформы NVIDIA Spectrum и Quantum оснащены коммутаторами Ethernet и IB.

Коммутаторы IB в основном эксплуатируются производителем mellanox, которого NVIDIA успешно приобрела в 2020 году. Кроме того, коммутаторы платформы Spectrum от NVIDIA в основном основаны на Ethernet, и ее продукты постоянно итерируются. Spectrum-4, выпущенный в 2022 году, представляет собой коммутатор 400G.

Платформы NVIDIA Spectrum и Quantum

Spectrum-X разработан для генеративного ИИ и оптимизирует ограничения традиционных коммутаторов Ethernet. Двумя ключевыми элементами платформы NVIDIA Spectrum X являются коммутатор NVIDIA Spectrum-4 Ethernet и процессор обработки данных NVIDIA BlueField-3.

Основные преимущества Spectrum-X включают: Расширение RoCE для ИИ и адаптивной маршрутизации (AR) для достижения максимальной производительности библиотеки коллективных коммуникаций NVIDIA (NCCL). NVIDIA Spectrum-X может достигать до 95% эффективной пропускной способности при нагрузке и масштабе гипермасштабных систем.

Используйте изоляцию производительности, чтобы гарантировать, что в многопользовательской среде с множеством задач одна задача не будет влиять на другую.

Обеспечьте максимальную производительность сетевой инфраструктуры в случае отказа сетевого компонента.

Синхронизируйтесь с DPU BlueField-3 для оптимальной производительности NCCL и AI.

Поддерживайте постоянную и стабильную производительность при выполнении различных рабочих нагрузок ИИ, что имеет решающее значение для достижения соглашений об уровне обслуживания (SLA).

В сетевом режиме IB или Ethernet — важный вопрос. На текущем рынке Ethernet занимает подавляющее большинство рыночной доли, но в некоторых сценариях крупномасштабных вычислений IB выделяется. На конференции ISC 2021 Supercomputing Conference на IB приходилось 70% систем TOP10 и 65% систем TOP100. По мере увеличения объема рассмотрения доля рынка IB уменьшается.

Платформы Spectrum и Quantum нацелены на разные сценарии применения. В видении Nvidia сценарии применения ИИ можно условно разделить на облако ИИ и фабрику ИИ. Традиционные коммутаторы Ethernet и Spectrum-X Ethernet могут использоваться в облаке ИИ, тогда как решения NVLink+InfiniBand требуются в фабрике ИИ.

Как понять NVIDIA SuperPOD?

SuperPOD — это серверный кластер, который объединяет несколько вычислительных узлов для обеспечения большей пропускной способности.

Если взять в качестве примера NVIDIA DGX A100 SuperPOD, то коммутатор, используемый в конфигурации, официально рекомендованной NVIDIA, — это QM9700, который может предоставить 40 портов 200G. На первом уровне сервер DGX A100 имеет в общей сложности 8 интерфейсов, которые подключены к 8 коммутаторам листьев соответственно, поскольку он принимает архитектуру толстого дерева (неконвергентную). 20 серверов образуют SU, поэтому требуется в общей сложности 8 серверов SU. В архитектуре второго уровня, поскольку сеть не сходится и скорость порта постоянна, порт восходящей связи, предоставляемый коммутатором позвоночника, должен быть больше или равен порту нисходящей связи коммутатора позвоночника. Таким образом, 1 SU соответствует 8 коммутаторам листьев и 5 коммутаторам позвоночника, 2 SU соответствуют 16 коммутаторам листьев и 10 коммутаторам позвоночника и т. д. Кроме того, когда количество SU увеличивается до более чем 6, официально рекомендуется добавить коммутатор уровня ядра.

Архитектура NVIDIA DGX A100 SuperPOD Reference

В DGX A100 SuperPOD соотношение сервер: коммутатор в вычислительной сети составляет 1:1.17 (в качестве примера взяты 7 SU); Но в DGX A100 SuperPOD это соотношение составляет 1:0.38. Принимая во внимание требования к хранению и управлению сетью, соотношения сервер: коммутатор для DGX A100 SuperPOD и DGX H100 SuperPOD составляют 1:1.34 и 1:0.50 соответственно.

Что касается портов, то в рекомендуемой конфигурации для DGX H100 каждый SU состоит из 31 сервера. С одной стороны, DGX H100 имеет только 4 интерфейса для вычислений, с другой стороны, коммутатор представляет собой QM9700, предоставляя 64 порта 400G в DGX H100 SuperPOD.

Что касается производительности коммутатора, производительность QM9700 была значительно улучшена в рекомендуемой конфигурации DGX H100 SuperPOD. Коммутаторы Infiniband представляют технологию Sharp. Построив дерево агрегации потоков (SAT) в физической топологии через менеджер агрегации, а затем заставив несколько коммутаторов в дереве выполнять параллельные операции, можно значительно сократить задержку и повысить производительность сети. QM8700/8790+CX6 поддерживает только до 2 SAT, но QM9700/9790+CX7 поддерживает до 64. Количество портов стекирования увеличивается, поэтому количество используемых коммутаторов уменьшается.

Судя по ценам коммутаторов, цена QM9700 примерно в два раза выше, чем у QM8700/8790. Согласно официальному сайту SHI, цена за единицу Quantum-2 QM9700 составляет 38,000 8700 долларов США, а цена за единицу Quantum QM8790/23,000 составляет 17,000 XNUMX/XNUMX XNUMX долларов США соответственно.

Каково текущее положение дел на рынке коммутаторов?

Рынок коммутаторов процветает в краткосрочной перспективе. С развитием ИИ ожидается дальнейшее расширение спроса на рынке и тенденция к высококлассной итерации.

Со структурной точки зрения рынок коммутаторов по-прежнему представляет собой голубой океан: Cisco занимает большую долю, а Arista быстро растет.

С точки зрения размера рынка: в первом квартале 1 года глобальный доход от продаж коммутаторов Ethernet составил 2023 млрд долларов США, увеличившись на 10.021% по сравнению с предыдущим годом. Доход от продаж коммутаторов 31.5G/200G увеличился на 400% по сравнению с предыдущим годом, а доход от продаж коммутаторов 41.3G увеличился на 100% по сравнению с предыдущим годом.

Что касается объема отгрузки через порты, то в первом квартале 229 года было отгружено 2023 млн единиц, что на 14.8% больше, чем в предыдущем году. Порты 200G/400G и 100G увеличились на 224.2% и 17.0% соответственно.

Конкурентная среда коммутатора лучше, чем на рынке серверов. По данным NextPlatform, доля Cisco на рынке в первом квартале 46 года составила 1%, что составляет около 2023 млрд долларов США, что на 4.61% больше, чем в предыдущем году. Arista достигла выручки в размере 33.7 млрд долларов США в первом квартале 1.15 года, что на 2023% больше, чем в предыдущем году, благодаря выдающимся показателям в центре обработки данных.

С точки зрения прибыльности, Cisco и Arista имеют валовую прибыль, близкую к 60%. Относительно благоприятный ландшафт создал хорошую прибыль для производителей в отраслевой цепочке. Хотя валовая прибыль Cisco и Arista показала небольшую тенденцию к снижению, они по-прежнему сохраняют валовую прибыль около 60% в целом. Заглядывая вперед, мы считаем, что рынок коммутаторов, как ожидается, продолжит получать выгоду от развития ИИ.