Учебные материалы Hotchip 2025, день 0: основные сведения о рабочих нагрузках ИИ, стоечных архитектурах и индивидуальных решениях GB200

В постоянно меняющемся мире технологий искусственного интеллекта и центров обработки данных конференция Hotchip 2025 открылась насыщенной программой обучающих семинаров нулевого дня. Будучи одним из ключевых событий в отрасли, сессии этого года стали своего рода аппетитным прелюдией: утром мы сосредоточились на стойках центров обработки данных, а днем ​​– на программировании ядра. Мы подробно расскажем об утренних сессиях, посвященных аппаратному обеспечению, и уделим особое внимание инновационной модификации Nvidia GB200 от Meta. Для профессионалов в области сетей связи с поддержкой искусственного интеллекта эти достижения подчеркивают необходимость надежных решений для оптической связи. Обратитесь к FiberMall, специализированному поставщику, предлагающему экономически эффективные решения для глобальных центров обработки данных, облачных вычислений, корпоративных сетей, сетей доступа и беспроводных систем. FiberMall, известный своим лидерством в области сетей на базе искусственного интеллекта, — ваш идеальный партнер для разработки высококачественных и выгодных решений. Для получения дополнительной информации посетите официальный сайт компании или обратитесь в службу поддержки клиентов.

Независимо от того, оптимизируете ли вы рабочие нагрузки ИИ или масштабируете технологии коммутации, понимание этих тенденций может преобразовать вашу инфраструктуру. Давайте разберём ключевые сессии.

1. Как рабочие нагрузки ИИ формируют архитектуру стоечной системы

В этом докладе AMD была представлена ​​всесторонняя ретроспектива развития искусственного интеллекта за последнее десятилетие. Начиная с культовой эпохи GTX 580 и AlexNet, цена которой составляла всего 499 долларов, он тонко контрастировал с сегодняшним стремительным ростом цен на видеокарты Nvidia.

Как рабочие нагрузки ИИ формируют архитектуру стоечной системы

В докладе были кратко изложены различные стратегии параллелизма и сопутствующие изменения в структуре межсоединений. По сути, это был своего рода образовательный мост для инженеров-чипников, позволивший им понять, чем занимались команды разработчиков инфраструктуры в последние годы.

строительные блоки модели ИИ

Ключевые моменты включают в себя переход от числовых форматов FP32 к FP4, что отражает повышение эффективности. Размеры корпусов микросхем стремительно растут, и соответственно расширяются области масштабирования. Для тех, кто работает со стоечными архитектурами ИИ, эта эволюция подчеркивает важность масштабируемых оптических межсоединений — опыт FiberMall в области сетей связи с поддержкой ИИ обеспечивает бесперебойную интеграцию для решения таких задач.

2. Масштабирование технологий фабрик для кластеров ИИ

Ещё одна сессия, организованная AMD, была посвящена основам масштабирования. Были перечислены распространённые технологии масштабирования, но, что примечательно, UB от Huawei была упущена — за эту оплошность снимаем баллы!

Масштабирование технологий производства тканей

В презентации были разъяснены различия между масштабирование вверх и вниз Подчеркнуто, насколько критическим образом принцип коммутации и пути передачи данных влияют на количество масштабируемых графических процессоров и пропускную способность.

масштабирование вверх против масштабирования вниз

Была продемонстрирована типичная однослойная масштабируемая сеть, после чего были рассмотрены вопросы масштабирования уровня 2 и построения сети уровня 1.5 на основе коммутаторов уровня 1. В целом, первые два сеанса были в основном образовательными обзорами, что делает их идеальными для новичков в масштабировании кластеров ИИ. Если вы внедряете их в центрах обработки данных, экономичные оптические решения FiberMall помогут оптимизировать ваши коммутационные технологии для достижения пиковой производительности.

альтернативная топология

3. Жидкостное охлаждение с характеристиками Google

Компания Google поделилась опытом работы с ТПУ, уделив особое внимание конструкциям модульных насосов для жидкостного охлаждения и другим аспектам.

развертывание дизайна
проект deschutes cdu

Примечательно, что их системы пятого поколения разработаны для стоек мощностью 1 МВт, что расширяет границы возможностей терморегулирования в инфраструктурах ИИ. Для подобных высокоплотных систем надёжное охлаждение не подлежит сомнению — оптоволоконные коммуникационные продукты FiberMall поддерживают базовые сети, которые делают такие инновации возможными.

4. Реорганизованные энергосистемы

В этом докладе, представленном компанией Microsoft, обсуждались вопросы подачи питания 800 В постоянного тока. Поскольку масштабирование в пределах одного шкафа требует большего количества графических процессоров, преобразователи питания выносятся наружу, что приводит к дезагрегации питания в стойке (RPD).

оптимизация инфраструктуры

Цепь электропитания эволюционирует от современных многоступенчатых трансформаторов переменного тока к системам постоянного тока среднего напряжения (MVDC) напряжением 800 В, в первую очередь для сокращения потерь при преобразованиях переменного тока в постоянный в конечной точке.

мощность системы ИИ

Внедрение в будущем твердотельных трансформаторов (SST) на 800 В обещает значительное повышение эффективности. Масштабное обучение приводит к синхронизированным запускам и остановкам графических процессоров, создавая нагрузку на сеть гармониками и реактивной мощностью. В настоящее время для снижения этих проблем используются аккумуляторные батареи (BBU) и конденсаторы на уровне шкафов (CBU). MVDC позволяет компенсировать эти проблемы внутрирядно или на уровне SST.

Подводя итог, можно сказать, что 800-вольтовый MVDC может вдвое сократить потери мощности в центрах обработки данных, что кардинально меняет ситуацию. Интеграция с оптическими сетями таких поставщиков, как FiberMall, обеспечивает комплексную эффективность систем питания ИИ.

5. Пример: Nvidia GB200 NVL72

Nvidia переработала презентацию PPT с прошлогоднего саммита OCP — сплошное негодование. Подробности здесь не вдавались, поскольку она не представляла особой ценности для энтузиастов стоечных систем ИИ.

6. Пример: Catalina от Meta (NVL72)

Без сомнения, это была лучшая сессия дня. Обширная кастомизация стойки GB200 от Meta затмила всех. Для сравнения, сравните её с июльским выпуском инстанса GB200 от AWS, чтобы заметить различия в настройках.

NVL72 от Meta занимает шесть корпусов: два жидкостное охлаждение Блоки на каждом конце (аналогично насосу AWS на ближней стороне с прямым воздушным охлаждением для минимизации модернизации ЦОД). В середине используются парные шкафы NVL36.

Каталина Меты

Официально Nvidia GB200 объединяет один Grace с двумя B200, что в сумме даёт 18 лотков. Meta использует соотношение Grace к B200 1:1, что даёт 36 вычислительных лотков для расширенной памяти.

Неофициально существуют более глубокие мотивы. Стандартная топология Nvidia на базе CX7 предполагает, что каждый Grace соединяет два B200 через PCIe x1, по два CX7 на каждый Grace (масштабируемость 400 Гбит/с на B200). Два Grace подключаются через 6 портов Clink.

Для GPU-Direct-RDMA (GDR) PCIe GDR ограничивает пропускную способность Gen4 x1, требуя выделения памяти на Grace и доступа NVLink C2C.

Моделирование показало, что B200 нуждается 800Gbps Масштабируемость. AWS использует внешние коммутаторы PCIe (Gen5, но в настоящее время ограничены 400 Гбит/с). Nvidia CX8 имеет встроенный коммутатор PCIe, но сохраняет канал Grace x1 для управления, направляя данные через PCIe в Grace, а затем в NVLink C2C, что требует специальной обработки NCCL 2.27.

Исправление Meta: соотношение 1:1 позволяет Grace подключать две сетевые карты Gen5 x16 CX7 для обеспечения скорости 800 Гбит/с на B200. B200 по-прежнему использует PCIe Gen4 x1 для Grace, но настоящий GDR не является прямым; DMA маршрутизируется через PCIe RC и NVLink C2C Grace.

При соотношении 1:1 взаимодействие сетевого адаптера и центрального процессора (NIC-CPU) даёт преимущество — нет узких мест, связанных с общей памятью центрального процессора. Графические процессоры обрабатывают RDMA через память центрального процессора, экономя около 200 ГБ/с пропускной способности HBM.

Число линий Clink между Grace удваивается до 12 для повышения пропускной способности межсистемного соединения. Без полной поддержки CX8 подход Meta увеличивает масштабируемость до 800 Гбит/с, одновременно увеличивая объём памяти ЦП.

Предположительно, Grace + CX7 имитирует крупногабаритный BF3: массивный DPU с горизонтальным масштабированием с одной стороны, семантическое масштабирование памяти с другой, плюс большой объём памяти. Это перекликается с NetDAM 2021 года, что позволяет использовать KVCache и INCA, а также перекладывать коммуникационные операции на Grace через NVLink C2C.

Вычислительный шкаф Meta включает в себя встроенный BBU для резервирования

Вычислительный шкаф Meta включает встроенный резервный аккумулятор (BBU) для резервирования, масштабируемое оптоволоконное подключение через коммутационные панели с запасными портами. Два коммутатора Wedge400 обеспечивают работу интерфейса (200 Гбит/с на Grace через CX7 + модуль безопасности DC-SCM — BF3 здесь не используется).

Масштабирование использует дезагрегированную запланированную фабрику

Для горизонтального масштабирования используется Disaggregated Scheduled Fabric (возможно, по образцу Cisco Silicon One, для устранения конфликтов хэш-адресов нескольких путей).

Обнаружение утечек на PDB каждого лотка

Добавлено: обнаружение утечек на PDB каждого лотка, подключение к контроллеру управления стойкой (RMC) через RJ45 для GPIO/I2C, а также внешние датчики.

BMC+TPM OCP-spec для удаленного управления

Финал: BMC+TPM спецификации OCP для удаленного управления (без BF3).

Для индивидуальных стоек ИИ, таких как Meta

Для индивидуальных стоек ИИ, таких как Meta, оптические сети FiberMall с поддержкой ИИ обеспечивают основу для надежных соединений с высокой пропускной способностью.

7. Обзор стойки TPU

Google опубликовала подробную информацию о стойке TPU. В прошлом году анализ охватывал маршрутизацию, защиту, эластичность и планирование межсоединений ICI.

Обзор стойки TPU

На этот раз: стойка Ironwood в виде блока 4x4x4, подключаемая к оптическим коммутаторам OCS через оптоволоконные жгуты с резервированием и коммутационными панелями.

Стойка из железного дерева в виде блока 4x4x4
Жидкостное охлаждение и ИБП расположены на уровне ряда.

Жидкостное охлаждение и ИБП расположены на уровне ряда.

реечные коллекторы

В заключение отметим, что нулевой день конференции Hotchip 2025 заложил основу для передовых инноваций в области ИИ-центров обработки данных. Если эти идеи вдохновят вас на создание собственных решений, обратите внимание на FiberMall, где представлены передовые решения для оптической связи, адаптированные для рабочих нагрузок ИИ.

Наверх