Понимание решения NVIDIA Spectrum-X

Решение Spectrum-X от NVIDIA — это первое в мире сквозное решение Ethernet, разработанное специально для генеративного ИИ. Это комплексное решение включает в себя несколько ключевых компонентов: коммутаторы серии Spectrum-4, BlueField-3 SuperNIC, высокопроизводительные кабельные модули LinkX 800G/400G и интегрированное программное решение полного стека с возможностями аппаратного ускорения. Истинная мощь Spectrum-X заключается в тесной интеграции как аппаратного, так и программного обеспечения; использование любой отдельной части в изоляции не позволяет в полной мере продемонстрировать ее максимальную эффективность.

NVIDIA Спектр-X

Сегодня многие ведущие производители чипов выпустили чипы коммутаторов, предназначенные для приложений ИИ и машинного обучения (ML), с пропускной способностью одного чипа, достигающей 51.2 Тбит/с. Хотя традиционные чипы коммутаторов центров обработки данных могут использоваться в сценариях ИИ, они испытывают трудности с эффективностью при обработке трафика ИИ, ориентированного на обучение и вывод.

Давайте разберемся, почему традиционный Ethernet сталкивается с ограничениями при использовании моделей трафика, ориентированных на ИИ, в первую очередь из-за дисбаланса нагрузки, более высокой задержки и джиттера, а также плохого контроля перегрузки.

Проблема дисбаланса нагрузки ECMP

Традиционные центры обработки данных Ethernet в основном обрабатывают такие приложения, как просмотр веб-страниц, потоковая передача музыки и видео, а также повседневные офисные задачи. Эти приложения обычно включают небольшие, многочисленные потоки данных (называемые «потоками»), которые распределяются случайным образом, что делает их хорошо подходящими для методов балансировки многопутевой нагрузки на основе хэш-алгоритмов (ECMP), которые гарантируют равномерное использование пропускной способности сети.

Однако в обучении модели ИИ модели, параметры, графические процессоры, центральные процессоры и сетевые карты тесно связаны. Сетевой трафик в основном состоит из коллективных операций с высокой пропускной способностью, таких как all-reduce и all-to-all. Обычно каждый графический процессор сопряжен с сетевой картой с высокой пропускной способностью, и каждая сетевая карта устанавливает относительно небольшое количество потоковых соединений во время каждого процесса обучения. Эти потоки достаточно значительны, чтобы быстро израсходовать всю пропускную способность сетевой карты — их называют «слоновьими потоками».

Из-за природы потоков слонов они могут концентрироваться на определенных сетевых путях из-за хэш-алгоритмов, что приводит к серьезной перегрузке на этих путях, в то время как другие остаются недоиспользованными. Это несбалансированное распределение трафика делает традиционные методы балансировки нагрузки на основе ECMP неэффективными, тем самым влияя на общую эффективность обучения.

Проблемы высокой задержки и джиттера

Традиционные приложения Ethernet полагаются на программирование сокетов TCP/IP, где ЦП должен копировать пользовательские данные из пространства пользователя в пространство ядра, затем из пространства ядра в драйвер сетевой карты для обработки и передачи приемнику. Этот процесс увеличивает задержку и увеличивает нагрузку на ЦП. Для решения этих проблем современные вычислительные кластеры ИИ используют сети без потерь, поддерживающие технологию удаленного прямого доступа к памяти (RDMA), такую ​​как InfiniBand или RDMA через конвергентный Ethernet (RoCE). Эти технологии значительно сокращают задержку передачи данных приложения, обходя ядро ​​(обход ядра) и используя механизмы нулевого копирования.

В сценариях обучения ИИ такие технологии, как GPU Direct RDMA и GPU Direct Storage, обеспечивают прямой обмен данными между памятью GPU или между памятью GPU и хранилищем через RDMA. Это сокращает задержку передачи данных памяти GPU до одной десятой от исходной. Кроме того, библиотека NVIDIA Collective Communications Library (NCCL) без проблем поддерживает интерфейсы RDMA, значительно упрощая переход от фреймворков TCP к RDMA для приложений ИИ.

При обучении больших моделей с сотнями миллионов параметров мы часто разбираем данные и модели для параллельной обработки, чтобы повысить эффективность. В этом процессе тысячи графических процессоров работают вместе в сложных, многомерных параллельных и кросс-структурированных конфигурациях, непрерывно обмениваясь параметрами и суммируя результаты вычислений. Обеспечение эффективности и стабильности каждого шага этого распределенного параллельного процесса обучения имеет решающее значение. Любой сбой одного графического процессора или увеличение задержки в коммуникации между узлами может стать узким местом всего процесса обучения. Эта увеличенная задержка не только увеличивает общее время обучения, но и отрицательно влияет на улучшение скорости (коэффициент ускорения обучения) и конечные результаты. Поэтому для обучения ИИ требуются сети с меньшей задержкой и лучшим качеством связи.

Проблемы с плохим контролем перегрузки сети

В распределенном параллельном обучении пики трафика «incast», когда несколько источников отправляют данные одному приемнику, часто вызывают перегрузку сети. Традиционный Ethernet следует модели обслуживания «лучшее из возможного», что затрудняет предотвращение переполнения буфера и потери пакетов даже при хорошем сквозном качестве обслуживания (QoS). Обычно протоколы верхнего уровня используют механизмы повторной передачи для смягчения последствий потери пакетов. Для Ethernet, поддерживающего RDMA, достижение нулевой потери пакетов имеет решающее значение.

Для достижения этой цели широко используются две ключевые технологии: механизмы управления потоком hop-by-hop и механизмы управления перегрузкой для «incast» трафика. В сетях RDMA over Converged Ethernet (RoCE) эти механизмы реализованы как Priority Flow Control (PFC) и Data Center Quantized Congestion Control (DCQCN) соответственно.

технический документ

В сценариях обучения ИИ, хотя управление приоритетным потоком (PFC) и квантованное управление перегрузкой центра обработки данных (DCQCN) смягчают перегрузку сети, они все еще имеют существенные недостатки. PFC предотвращает потерю данных, генерируя обратное давление по каждому переходу, но это может привести к деревьям перегрузки, блокировке начала очереди и тупиковым петлям, в конечном итоге влияя на общую производительность сети. DCQCN использует маркировку ECN и сообщения CNP для регулировки скоростей, но его индикация перегрузки не является точной, а корректировки скоростей происходят медленно, неспособны оперативно реагировать на динамические условия сети, тем самым ограничивая пропускную способность. Оба требуют ручной настройки и мониторинга, что увеличивает эксплуатационные расходы и сложность обслуживания, не отвечая строгим требованиям к высокопроизводительным сетям с низкой задержкой в ​​обучении ИИ.

Как NVIDIA Spectrum-X решает эти проблемы

Решение Spectrum-X от NVIDIA выделяется среди различных производителей сетей, устраняя эти традиционные ограничения Ethernet в обучении ИИ. Согласно недавнему техническому документу, основное преимущество Spectrum-X заключается в его технологии адаптивной маршрутизации, которая считается его «убийственной» функцией. Эта технология напрямую решает проблему неравномерного распределения полосы пропускания, вызванную статическими механизмами распределения хэшей в традиционном Ethernet.

Благодаря глубокой интеграции возможностей сетевых коммутаторов и терминальных DPU (блоков обработки данных) Spectrum-X обеспечивает динамический мониторинг физической пропускной способности каждого канала и состояния перегрузки выходного порта в режиме реального времени. На основе этого мониторинга Spectrum-X может реализовывать тонко настроенные динамические стратегии распределения нагрузки для каждого сетевого пакета, значительно улучшая балансировку канала и эффективное использование пропускной способности с традиционных 50%-60% до более чем 97%. Это улучшение напрямую устраняет проблемы с задержкой «длинного хвоста», вызванные «слоновьими потоками» (крупномасштабными потоками передачи данных) в приложениях ИИ.

производительность адаптивной маршрутизации

Как показано, традиционный ECMP может привести к значительному увеличению времени завершения для определенных потоков данных из-за неравномерного использования полосы пропускания. Напротив, адаптивная маршрутизация гарантирует, что все потоки данных равномерно распределены по нескольким каналам, значительно сокращая и балансируя время передачи каждого потока данных, тем самым сокращая общий цикл завершения задачи обучения. В частности, в коллективных шаблонах коммуникации, распространенных в сценариях обучения ИИ, таких как all-reduce и all-to-all, Spectrum-X демонстрирует значительные преимущества в производительности по сравнению с традиционным Ethernet из-за его превосходных возможностей использования полосы пропускания канала.

Прямое размещение данных (DDP): революционное решение проблем повторной сборки с нарушением порядка

Хотя стратегии балансировки нагрузки по пакетам значительно повышают эффективность использования полосы пропускания и стали весьма востребованным решением, основная проблема, которую они приносят, — это повторная сборка неупорядоченных пакетов на принимающей стороне. Эту проблему было трудно преодолеть для отрасли. Традиционные методы полагаются либо на обработку на стороне сети, либо на решения на стороне терминала, но оба они ограничены узкими местами в производительности программного обеспечения и оборудования, что приводит к неоптимальным результатам.

Spectrum-X, с его инновационной глубокой интеграцией коммутатора Spectrum-4 на стороне сети и оборудования на стороне терминала BlueField-3, элегантно решает эту проблему. Вот подробное объяснение потока обработки DDP в сценарии RoCE (RDMA через конвергентный Ethernet):

RoCE (RDMA через конвергентный Ethernet)

С левой стороны учебный трафик, исходящий из различных запоминающих устройств GPU, сначала специально маркируется соответствующими сетевыми картами BlueField-3. Затем эти маркированные пакеты отправляются на напрямую подключенные коммутаторы Top of Rack (TOR) Spectrum-4. Коммутаторы TOR, используя свои мощные аппаратные возможности, быстро идентифицируют маркированные пакеты BlueField-3 и, основываясь на состоянии полосы пропускания в реальном времени и условиях буфера восходящего канала, интеллектуально распределяют пакеты каждого потока данных по четырем путям восходящего канала к четырем коммутаторам позвоночника, используя динамические алгоритмы маршрутизации на пакет.

Верхняя часть стойки (TOR)

По мере того, как эти пакеты проходят через соответствующие коммутаторы позвоночника, они в конечном итоге достигают коммутатора назначения TOR и далее передаются на сетевой адаптер BlueField-3 целевого сервера. Из-за различных путей передачи и различий в производительности оборудования пакеты могут прибывать на сетевой адаптер BlueField-3 назначения не по порядку. Сетевой адаптер BlueField-3 назначения, используя встроенную технологию DDP, быстро идентифицирует пакеты, отмеченные BlueField-3, и напрямую считывает адреса памяти пакетов, точно помещая пакеты в память целевого графического процессора. Впоследствии технология DDP дополнительно интегрирует эти неупорядоченные пакеты, гарантируя, что они будут объединены в полный поток данных в правильном порядке, полностью устраняя проблемы неупорядоченности, вызванные различиями в сетевых путях и различиями в производительности оборудования.

БлюФилд-3

Благодаря бесшовной интеграции технологий динамической маршрутизации и аппаратного ускорения DDP Spectrum-X не только эффективно решает проблемы неравномерного распределения полосы пропускания традиционных механизмов Ethernet ECMP (Equal-Cost Multi-Path), но и принципиально устраняет явления задержки с длинным хвостом, вызванные неупорядоченными пакетами. Это обеспечивает более стабильное и эффективное решение для передачи данных для высокопроизводительных вычислительных приложений, таких как обучение ИИ.

Изоляция производительности для многопользовательской среды ИИ

В высококонкурентной облачной экосистеме ИИ колебания производительности приложений и неопределенности времени выполнения часто тесно связаны с перегрузкой на уровне сети. Это явление возникает не только из-за колебаний собственного сетевого трафика приложения, но также может быть вызвано фоновым трафиком от других параллельных приложений. В частности, перегрузка «многие к одному» (несколько источников данных отправляют данные одному приемнику) становится существенным узким местом производительности, значительно увеличивая нагрузку на приемник.

В многопользовательской или многозадачной сетевой среде RoCE, хотя такие технологии, как VXLAN, могут достичь определенной степени изоляции хоста, перегрузка трафика арендатора и проблемы изоляции производительности остаются сложными. Распространенный сценарий — когда некоторые приложения отлично работают в физической среде bare-metal, но видят значительное падение производительности после миграции в облако.

Технический документ NVIDIA Spectrum-X

Например, предположим, что в системе одновременно выполняются рабочие нагрузки A и B. Когда происходит перегрузка сети и запускаются механизмы контроля перегрузки, из-за ограниченной информации, передаваемой ECN, отправитель не может определить, на каком уровне коммутатора произошла перегрузка или ее масштаб. Таким образом, он не может решить, как быстро увеличить или уменьшить скорость отправки, часто полагаясь на эвристические методы постепенной конвергенции. Это время конвергенции велико и может легко вызвать помехи между заданиями. Кроме того, существует множество параметров контроля перегрузки, а коммутаторы и сетевые карты требуют очень подробных и сложных настроек параметров. Слишком быстрый или слишком медленный запуск механизмов контроля перегрузки может существенно повлиять на производительность бизнеса клиента.

Для решения этих проблем Spectrum-X с его мощной программируемой функцией управления перегрузкой на аппаратной платформе BlueField-3 представляет собой передовое решение, выходящее за рамки традиционного алгоритма DCQCN. Spectrum-X достигает точной оценки условий перегрузки на пути трафика посредством тесного взаимодействия оборудования BlueField-3 как на стороне отправителя, так и на стороне получателя, используя пакеты зондирования RTT (время кругового пути) и внутриполосную телеметрическую информацию от промежуточных коммутаторов. Эта информация включает, помимо прочего, временные метки пакетов, проходящих через коммутаторы, и показатели использования выходного буфера, что обеспечивает надежную основу для управления перегрузкой.

DCQCN

Что особенно важно, высокопроизводительные возможности обработки оборудования BlueField-3 позволяют ему обрабатывать миллионы пакетов Congestion Control (CC) в секунду, достигая точного контроля перегрузки на основе различных рабочих нагрузок. Это эффективно достигает целей изоляции производительности. Благодаря этому механизму рабочая нагрузка A и рабочая нагрузка B могут достигать оптимальной ожидаемой производительности, не подвергаясь неблагоприятному влиянию перегрузки других арендаторов.

Подводя итог, можно сказать, что благодаря инновационным аппаратным технологиям и интеллектуальным алгоритмам управления перегрузками Spectrum-X обеспечивает эффективное и точное решение по изоляции производительности для многопользовательских облачных сред ИИ, помогая каждому пользователю достичь производительности, сопоставимой с производительностью в физической среде.

Состав продукта Spectrum-X

Коммутатор SN5600: Коммутатор SN5600 — это усовершенствованный коммутатор в корпусе 2U, в котором интегрирована однокристальная система Spectrum-4 51.2 Тбит/с, изготовленная с использованием передового 4-нм техпроцесса TSMC и включающая в себя поразительное количество транзисторов — 100 миллиардов.

Состав продукта Spectrum-X

Коммутатор оснащен 64 портами 800G OSFP и может гибко поддерживать расширение до 128 портов 400G или 256 портов 200G, удовлетворяя разнообразные сетевые потребности. Его скорость пересылки пакетов достигает 33.3 бит/с, с 512 тыс. записей таблицы пересылки и 160 МБ глобального общего кэша, что обеспечивает пересылку со скоростью линии даже для 172-байтовых пакетов. Кроме того, SN5600 полностью совместим с основными операционными системами, такими как Cumulus и Sonic, и его функциональность непрерывно развивалась в серии Spectrum с 1 по 4 поколение, предоставляя пользователям улучшенную производительность и гибкость сети.

BlueField-3 SuperNIC: BlueField-3 SuperNIC — это новый сетевой ускоритель на базе платформы BlueField-3, предназначенный для поддержки крупномасштабных рабочих нагрузок ИИ. Специально разработанный для сетевых интенсивных крупномасштабных параллельных вычислений, он обеспечивает соединение RDMA до 400 Гбит/с между серверами GPU через конвергентный Ethernet, оптимизируя пиковую эффективность рабочей нагрузки ИИ. BlueField-3 SuperNIC знаменует собой новую эру в облачных вычислениях ИИ, предоставляя защищенные многопользовательские среды центров обработки данных и гарантируя согласованность производительности и изоляцию между заданиями и арендаторами.

BlueField-3 Суперсетевая карта

В частности, мощная среда разработки программного обеспечения DOCA 2.0 предлагает высоконастраиваемые программные решения, что еще больше повышает общую эффективность системы.

Кабели LinkX: Серия кабелей LinkX фокусируется на высокоскоростном сквозном подключении 800G и 400G, используя технологию 100G PAM4. Полностью поддерживая стандарты OSFP и QSFP112 MSA, она охватывает различные формы оптических модулей от DAC и ACC до многомодовых и одномодовых, удовлетворяя разнообразные потребности в проводке. Эти кабели могут беспрепятственно взаимодействовать с портами 5600G OSFP коммутатора SN800, обеспечивая расширение портов 1G OSFP с 2 на 400, повышая гибкость и эффективность сетевого подключения.

Резюме и пример из практики

Spectrum-X, ведущее глобальное решение NVIDIA для ИИ Ethernet, объединяет ведущие в отрасли аппаратные и программные технологии, стремясь изменить экосистему вычислительной мощности ИИ. Его основные особенности включают высокопроизводительный коммутатор Spectrum-4 ASIC собственной разработки, интеллектуальные сетевые платы серии BlueField DPU и оптические модульные кабели LinkX с технологией Direct Drive. Эти аппаратные компоненты вместе создают надежную инфраструктуру.

Технологически Spectrum-X включает в себя множество инновационных функций, таких как механизмы динамической маршрутизации, технология коррекции ошибок на конечной стороне, программируемые алгоритмы управления перегрузкой нового поколения и полнофункциональная платформа ускорения программного обеспечения ИИ DOCA 2.0. Эти функции не только оптимизируют производительность и эффективность сети, но и значительно улучшают отзывчивость и возможности обработки приложений ИИ, создавая эффективную и надежную вычислительную основу для пользователей в области генеративного ИИ.

Это высокоинтегрированное решение направлено на преодоление разрыва между традиционным Ethernet и InfiniBand, фокусируясь на предоставлении настраиваемой высокопроизводительной сетевой поддержки для рынка AI Cloud. Оно отвечает строгим требованиям приложений AI к высокой пропускной способности, низкой задержке и гибкому расширению, лидируя в тенденциях технологии Ethernet в направлении оптимизации сценариев, специфичных для AI, и нацелено на развитие и расширение этого нового и многообещающего рынка.

Технические преимущества Spectrum-X проиллюстрированы на примере его применения с французским поставщиком облачных услуг Scaleway. Scaleway, основанная в 1999 году, предлагает высокопроизводительную инфраструктуру и более 80 облачных продуктов и услуг для более чем 25,000 XNUMX клиентов по всему миру, включая Mistral AI, Aternos, Hugging Face и Golem.ai. Scaleway предоставляет комплексные облачные услуги для разработки инновационных решений и помощи пользователям в создании и масштабировании проектов ИИ с нуля.

В настоящее время Scaleway создает региональное облако ИИ, предлагающее инфраструктуру GPU для крупномасштабного обучения, вывода и развертывания моделей ИИ. Внедрение графических процессоров NVIDIA Hopper и сетевой платформы Spectrum-X значительно повысило вычислительную мощность ИИ, сократило время обучения ИИ и ускорило разработку, развертывание и выход на рынок решений ИИ, эффективно повышая рентабельность инвестиций. Клиенты Scaleway могут масштабироваться от нескольких GPU до тысяч, чтобы удовлетворить любые сценарии использования ИИ. Spectrum-X не только обеспечивает производительность и безопасность, необходимые для многопользовательских, многозадачных сред ИИ, но и достигает изоляции производительности с помощью таких механизмов, как динамическая маршрутизация, контроль перегрузки и глобальные общие буферы. Кроме того, NetQ обеспечивает глубокий обзор состояния сети ИИ с помощью таких функций, как счетчики трафика RoCE, события и оповещения WJH (What Just Happened), что позволяет визуализировать сеть ИИ, устранять неполадки и выполнять проверку. При поддержке NVIDIA Air и Cumulus Linux Scaleway может интегрировать собственные сетевые среды API в цепочку инструментов DevOps, обеспечивая плавный переход от развертывания к эксплуатации.

Оставьте комментарий

Наверх