Видение будущей сети для центров искусственного интеллекта: путь трансформации Arista

Эволюция и проблемы архитектуры сети ИИ

Эволюция и проблемы архитектуры сети ИИ

При обсуждении сетей ИИ можно проанализировать два ключевых измерения. Первое измерение — это базовая сетевая архитектура, предоставляемая для ИИ. Второе измерение — это применение технологии ИИ в сетевых операциях и обслуживании. Мы интегрировали различные функции и решения для улучшения наших внутренних систем, включая операции ИИ (AIOps) и наблюдаемость. Наши коммутаторы оснащены несколькими датчиками и функциями безопасности, такими как Smart System Upgrade (SSU), которые являются основными возможностями сетей ИИ. Функция SSU позволяет беспрепятственно обновлять исправления безопасности и системы, сохраняя при этом работоспособность критически важных сетевых служб, и поддерживает прогнозную аналитику.

эксплуатация и обслуживание сети

Все продукты Arista, будь то коммутаторы кампуса, маршрутизаторы WAN или крупные коммутаторы 400G центра обработки данных с 576 портами, работают на одной и той же расширяемой операционной системе (EOS). Кроме того, все продукты управляются через единую программную платформу CloudVision, предоставляя клиентам комплексные высококачественные решения, которые гарантируют постоянную производительность в различных средах. Эта однородность была высоко оценена клиентами.

центр искусственного интеллекта

Традиционно сети работали изолированно. Например, у нас были frontend-сеть и backend-сеть в центрах обработки данных, при этом backend-сеть в основном состояла из HPC, в которых доминировал InfiniBand. С развитием технологий ИИ мы наблюдаем переход от традиционных центров обработки данных к центрам, ориентированным на ИИ. В центрах ИИ backend-сеть соединяет графические процессоры, в то время как frontend-сеть соединяет традиционные сети центров обработки данных, системы хранения данных и WAN, по сути, охватывая все сетевые компоненты, необходимые для создания единого центра ИИ.

Центр обработки данных коммутатора Ethernet

Слайд 650 Group иллюстрирует историческую эволюцию и будущую проекцию скоростей портов центров обработки данных. Как показано, высокоскоростные порты находятся на значительной траектории роста. График объединяет скорости 800G и 1.6T, что имеет смысл — 800G использует 8x100G SERDES, в то время как 1.6T использует 16x100G или 8x200G SERDES. Этот рост обусловлен примерно 30%-40%-ным спросом на сеть ИИ, что отражает расширение кластеров ИИ, особенно обучающих кластеров. Заглядывая вперед, операции вывода также будут способствовать этому росту. Поэтому возможности ввода-вывода должны идти в ногу с улучшением производительности графических процессоров. С правой стороны графика 51.2T ASIC показывает самую высокую скорость внедрения в истории, отмечая быстрый переход от 25.6T к 51.2T, а чипы 100T потенциально последуют еще более быстрыми темпами. Традиционно повышение скорости занимало несколько лет, но в настоящее время, учитывая спрос на ИИ, технологические переходы происходят каждые 1.5–2 года, чтобы удовлетворить потребности графических процессоров и других ускорителей в пропускной способности.

От традиционных центров обработки данных к центрам искусственного интеллекта: путь трансформации Arista

Архитектурная трансформация: Традиционные сети центров обработки данных обычно используют многоуровневую архитектуру, при этом фронтенд-сеть соединяет пользовательские устройства и внешние сети, а бэкенд-сеть в основном использует технологию InfiniBand для удовлетворения потребностей высокопроизводительных вычислений (HPC). Однако с быстрым развитием технологий ИИ философия проектирования центров обработки данных смещается в сторону моделей, ориентированных на ИИ.

Реорганизация компонентов: В архитектурах центров обработки данных ИИ внутренняя сеть соединяет графические процессоры, в то время как фронтальная сеть продолжает соединять традиционные сети центров обработки данных, системы хранения данных и WAN. Это приводит к созданию комплексной сетевой среды, сосредоточенной вокруг рабочих нагрузок ИИ.

портфолио arista etherlink ai

Что касается модульных систем, флагманские магистральные продукты AI от Arista имеют самые большие конструкции шасси, поддерживающие до 576 портов 800G. Такая конфигурация позволяет небольшим сетям подключаться к большому шасси, достигая более 1100 портов 400G в масштабе, что обеспечивает почти половину петабайта пропускной способности с одного шасси. Для более крупных кластеров, например, с десятками или сотнями тысяч графических процессоров, оптимальная конструкция использует двухслойную сетевую архитектуру leaf-spine для бэкэнда. Поддержание этой двухслойной структуры имеет решающее значение в сценариях ИИ, поскольку балансировка нагрузки является основной задачей. Обеспечение надлежащего распределения трафика помогает предотвратить перегрузку, не допускает замедления всей рабочей нагрузки отдельными графическими процессорами, сокращает прерывания и снижает энергопотребление высокомощных сетей.

Проблемы рабочих нагрузок ИИ в сетях

Потребность в пропускной способности: Масштаб и вычислительные требования моделей ИИ растут экспоненциально, что приводит к резкому увеличению потребности в пропускной способности сети.

Пиковый трафик: каждый поток данных с серверов обучения ИИ генерирует пиковый трафик со скоростью линии, обычно включающий всего 4–8 потоков данных, но эта модель может привести к серьезной перегрузке сети.

Узкие места из-за задержек: распределенные вычисления превращают самый медленный путь трафика в узкое место, при этом любая задержка в сети может оказать существенное влияние на общую производительность.

Мониторинг трафика: мониторинг и устранение неполадок в трафике ИИ представляет собой сложную задачу из-за его высокой скорости и прерывистого характера, что делает традиционные инструменты мониторинга недостаточными.

Сетевые решения AI от Arista

Arista предлагает комплексный набор сетевых решений на базе ИИ, включающий высокопроизводительные коммутационные платформы, инновационные сетевые архитектуры, расширенные программные функции и эффективные оптические технологии для решения различных задач, возникающих при рабочих нагрузках ИИ.

Высокопроизводительные коммутаторы Ethernet:

Линейка продукции: Arista предлагает полный спектр коммутаторов Ethernet 800G, включая фиксированные конфигурации и модульные системы.

Серия Etherlink AI:

Системы с фиксированной конфигурацией: оснащены чипом Broadcom 512T, оснащены 64 портами 800G (эквивалентно 128 портам 400G), подходят для небольших и средних рабочих нагрузок ИИ.

Модульные системы: флагманские магистральные продукты на базе искусственного интеллекта, поддерживающие до 576 портов 800G на шасси, идеально подходящие для сверхкрупных центров обработки данных.

Серия 7700: распределенные системы Etherlink используют односкачковую конструкцию, поддерживающую расширение до 32,000 XNUMX графических процессоров, удовлетворяя потребности в более масштабных вычислениях.

Операционная система: Все коммутаторы работают под управлением Arista EOS (расширяемая операционная система) и единообразно управляются через платформу CloudVision, что повышает эффективность управления.

Серия 7060x6-64pe

Шасси Arista 51.2 Тбит/с, созданное на основе 5-нанометрового процесса и оснащенное 64 портами 800G, является самым энергоэффективным выбором из доступных на данный момент. В кластерах ИИ балансировка нагрузки и энергопотребление являются двумя основными проблемами, при этом энергоэффективность является основной заботой клиентов. Отрасль движется в сторону линейной подключаемой оптики (LPO) для повышения как оптического модуля, так и энергоэффективности сети. Экономия энергии на стороне сети может быть перераспределена на большее количество графических процессоров или xPU.

Это представляет собой интеллектуальную аппаратную инновацию. Согласно отзывам основных клиентов, удаление всех кабелей, демонтаж шасси и выполнение ремонта при отказе компонента внутри шасси является обременительной задачей. Обычно компоненты с самым коротким средним временем между отказами (MTBF) — это память (RAM), твердотельные накопители (SSD) или центральные процессоры (CPU). Для решения этой проблемы конструкция нашей системы позволяет извлекать весь модуль CPU после извлечения двух вентиляторов с правой стороны.

Другим преимуществом этой конструкции является ее способность удовлетворять потребности безопасности некоторых клиентов в отношении конфиденциальных данных на SSD. Поскольку модуль ЦП может быть удален независимо, клиенты могут безопасно обрабатывать эти данные во время обслуживания. Такая конструкция обеспечивает значительное удобство и знаменует собой крупную инновацию в области оборудования.

Шасси Arista 51.2 Тбит/с

7700R4, продукт последнего поколения, оснащен линейными картами 800G. В своей самой большой конфигурации шасси может поддерживать до 1,152 портов 400G, способных обеспечить пропускную способность почти в полпетабайта данных. Это шасси использует полностью основанную на ячейках архитектуру виртуальной очереди вывода (VOQ), обеспечивающую идеальную балансировку нагрузки. Такая конструкция особенно подходит для клиентов, создающих небольшие кластеры, где достаточно одного шасси; оно также служит идеальным устройством магистральной сети ИИ для клиентов, создающих большие кластеры.

7700R4

Инновационные технологии балансировки нагрузки

  • Проблема: Традиционные алгоритмы многопутевой передачи с равной стоимостью (ECMP) неэффективны при обработке трафика ИИ, что побудило Arista разработать различные целевые решения для балансировки нагрузки:
  • Компоновка с учетом перегрузки: разумно распределяет трафик по различным восходящим каналам на основе реальной сетевой нагрузки, снижая риск перегрузки.
  • Балансировка нагрузки на основе RDMA: использует программные алгоритмы для достижения точной балансировки нагрузки на основе характеристик трафика RDMA.
  • Распределенный коммутатор Etherlink (DES): решает проблемы балансировки нагрузки посредством пересылки пакетов на аппаратном уровне, используя схему односетевого соединения для сокращения задержек.
  • Архитектура: имеет двухуровневую сетевую архитектуру, требующую на практике только одного перехода, при этом основной чип расположен в коммутаторе Leaf, а Spine выступает в качестве высокоскоростного коммутационного устройства.
  • Протокол пакетной передачи данных: будущая альтернатива протоколу RDMA, предназначенная для эффективной обработки неупорядоченных пакетов и повышения стабильности передачи данных.

Разница между Virtual Output Queuing (VOQ) и балансировкой нагрузки с поддержкой RDMA: VOQ относится к архитектуре внутри шасси, использующей виртуальные очереди вывода для распределения пакетов между входными и выходными портами, что является полностью запланированным процессом. Напротив, балансировка нагрузки с поддержкой RDMA включает динамическую балансировку нагрузки с особым акцентом на характеристики трафика RDMA, что позволяет выполнять балансировку нагрузки или хеширование на основе этого трафика.

крупномасштабная сеть искусственного интеллекта
крупномасштабная сеть искусственного интеллекта с хранилищем

Диаграмма дает полный обзор сетевой архитектуры, охватывающей как традиционные фронтальные сети, так и выделенные бэкенд-сети ИИ. В зависимости от размера кластера конфигурации могут включать меньшие фиксированные шасси, стойки или гибрид того и другого. Для очень крупных кластеров может быть рассмотрена даже трехуровневая архитектура.

Как для бэкэнда, так и для фронтэнда ИИ требуются выделенные системы хранения. Кроме того, необходимы WAN-подключения. В этом обзоре представлена ​​общая архитектура большой сети ИИ.

Расширенные возможности визуализации

  • Инструменты сетевого мониторинга: Традиционные методы сетевого мониторинга с трудом улавливают микросекундные колебания в трафике ИИ. Arista предлагает различные инновационные инструменты мониторинга:
  • Анализатор ИИ: собирает статистику трафика с интервалом в 100 микросекунд, предоставляя детальную информацию о поведении сети, позволяя быстро выявлять проблемы перегрузки и балансировки нагрузки.
  • AI Agent: расширяет возможности EOS до серверов сетевых карт, обеспечивая централизованное управление и мониторинг подключений ToR и сетевых карт.
  • Автоматическое обнаружение: AI Agent может автоматически обнаруживать и синхронизировать конфигурации между коммутаторами и сетевыми картами, поддерживая различные расширения подключаемых модулей сетевых карт.
  • Сбор данных: собирает данные счетчиков сетевых карт, предлагая более полное представление сети и расширенные возможности анализа.

Комплексные механизмы контроля перегрузок

  • Методы управления перегрузками: Arista использует несколько методов для эффективного управления перегрузками сети, в том числе:
  • Управление приоритетным потоком (PFC): предотвращает потерю пакетов, вызванную агрегацией трафика на последнем этапе, с помощью управления приоритетным потоком.
  • Явное уведомление о перегрузке (ECN): снижает скорость передачи данных при перегрузке шины PCI, предотвращая сбои в работе сети.
  • Внутрисетевая телеметрия: предоставляет подробную информацию о глубине очереди перегрузки сети, облегчая мониторинг и оптимизацию в реальном времени.

Гарантия высокой надежности:

  • Технологии высокой доступности: Arista предлагает различные функции для обеспечения высокой доступности сетей ИИ:
  • Обновления без прерывания работы (SSU): поддерживает обновления версии EOS без простоев.
  • Оптимизация плоскости данных: оптимизирует производительность микросхемы для обеспечения стабильной работы сети.
  • Комплексный мониторинг соединений L1: отслеживает состояние 400,000 XNUMX оптических модулей в режиме реального времени, оперативно выявляя и устраняя неисправности для обеспечения надежности сети.
EOS

Жемчужина Arista: EOS (расширяемая операционная система) и ее особенности:

В среде ИИ балансировка нагрузки имеет решающее значение. Мы предоставляем различные функции, включая динамическую балансировку нагрузки (DLB), балансировку нагрузки перегрузки (CLB), хеширование на основе заголовков RDMA, квантованное уведомление о перегрузке центра обработки данных (DCQCN), явное уведомление о перегрузке (ECN) и методы контроля перегрузки Priority Flow Control (PFC). Кроме того, мы предлагаем расширенные функции, такие как сторожевой таймер PFC и многопользовательские опции.

Если вы создаете кластеры GPU или xPU и планируете предлагать их как услугу, вам понадобятся возможности сегментации и многопользовательской среды. Здесь в игру вступают Virtual Extensible LAN (VXLAN) и Ethernet Virtual Private Network (EVPN). После развертывания мониторинг и визуализация необходимы для доступа к данным телеметрии, выявления точек перегрузки и неисправных соединений, что гарантирует надежность и устойчивость сети.

Линейная сменная оптика (LPO):

  • Особенности конструкции: LPO 800G имеет линейную конструкцию, что значительно снижает стоимость и энергопотребление.
  • Перспективы на будущее: LPO 1.6T может еще больше снизить энергопотребление и, как ожидается, достигнет масштабного производства к 2025 году, став ключевой технологией для снижения энергопотребления в кластерах ИИ.
Переход оптики с 400G на 800G

В сетях это не менее важно. При рассмотрении оптической технологии 400G наблюдается несоответствие между электрическими сигналами и оптическими сигналами. Электрические сигналы составляют 8X 50G, а оптические сигналы — 4X 100G, что требует редуктора для преобразования электрического сигнала 50G в оптический сигнал 100G. Помимо преобразования сигнала редуктор также имеет возможности усиления сигнала. Какова роль редуктора? Он обеспечивает усиление мощности для оптического сигнала, но также увеличивает стоимость. На скоростях 800G ситуация линейна, что является благоприятной характеристикой. Электрические сигналы составляют 8X 100G PAM-4, а оптические сигналы также составляют 8X 100G PAM-4, что приводит к идеальному согласованию скоростей оптических сигналов, что приводит к самой низкой стоимости и более простой оптической конструкции.

Интеграция на уровне стойки:

  • Интеграционное решение: интеграция большего количества графических процессоров и сетевых технологий в одну стойку с использованием медных оптических кабелей для повышения общей производительности.
  • Анализ случая: Стойка NVL72 от Nvidia объединяет 72 графических процессора с энергопотреблением до 120 киловатт. Хотя интеграция на уровне стойки обеспечивает преимущества по стоимости и мощности, она также сталкивается с проблемами в управлении температурой.

В кластерах AI, если вам интересно узнать о наиболее часто используемых схемах оптического соединения, большинство кластеров AI используют конструкцию end-of-rack. Здесь используется 800G VSR4, обеспечивающий расстояние передачи 50 метров, достаточное для подключения любого GPU с конца стойки. Между листом и позвоночником можно использовать XDR4 или FR4; один поддерживает передачу до 500 метров, другой — до 2 километров.

Генеративный ИИ меняет все

Консорциум Ultra Ethernet (UEC):

  • Организационная информация: Arista является одним из основателей UEC, активно содействующим развитию технологии Ethernet.
  • Технические цели: UEC нацелена на решение сетевых проблем, возникающих при рабочих нагрузках ИИ и HPC, включая протоколы передачи, управление перегрузками и технологию распыления пакетов.
  • Выпуск спецификаций: Ожидается, что UEC выпустит спецификации многоуровневых сетей позднее в 2024 году, что будет способствовать стандартизации отрасли.

Масштабирование сетей ИИ:

  • Архитектурная поддержка: Arista предлагает различные сетевые архитектуры для поддержки кластеров ИИ разных размеров, в том числе:
  • Двухуровневая архитектура Leaf-Spine: подходит для кластеров малого и среднего размера, обеспечивая эффективное использование полосы пропускания.
  • Трехуровневая сетевая архитектура: подходит для сверхкрупных кластеров, повышая масштабируемость сети.
  • Многоплоскостная сетевая архитектура: расширяет масштаб сети за счет нескольких независимых плоскостей, поддерживая более высокий уровень параллелизма.
  • Распределенная архитектура планирования: обеспечивает односкачковые логические соединения, поддерживая потребности в расширении до 32,000 XNUMX графических процессоров.
  • Спрос на рынке: создание сверхкрупных кластеров искусственного интеллекта требует больших затрат, но растущий спрос рынка на высокопроизводительные вычисления и обработку больших данных продолжает стимулировать инновации и разработки в смежных технологиях.

Оставьте комментарий

Наверх