В постоянно меняющемся мире технологий искусственного интеллекта и центров обработки данных конференция Hotchip 2025 открылась насыщенной программой обучающих семинаров нулевого дня. Будучи одним из ключевых событий в отрасли, сессии этого года стали своего рода аппетитным прелюдией: утром мы сосредоточились на стойках центров обработки данных, а днем – на программировании ядра. Мы подробно расскажем об утренних сессиях, посвященных аппаратному обеспечению, и уделим особое внимание инновационной модификации Nvidia GB200 от Meta. Для профессионалов в области сетей связи с поддержкой искусственного интеллекта эти достижения подчеркивают необходимость надежных решений для оптической связи. Обратитесь к FiberMall, специализированному поставщику, предлагающему экономически эффективные решения для глобальных центров обработки данных, облачных вычислений, корпоративных сетей, сетей доступа и беспроводных систем. FiberMall, известный своим лидерством в области сетей на базе искусственного интеллекта, — ваш идеальный партнер для разработки высококачественных и выгодных решений. Для получения дополнительной информации посетите официальный сайт компании или обратитесь в службу поддержки клиентов.

Независимо от того, оптимизируете ли вы рабочие нагрузки ИИ или масштабируете технологии коммутации, понимание этих тенденций может преобразовать вашу инфраструктуру. Давайте разберём ключевые сессии.
Содержание
Переключать1. Как рабочие нагрузки ИИ формируют архитектуру стоечной системы
В этом докладе AMD была представлена всесторонняя ретроспектива развития искусственного интеллекта за последнее десятилетие. Начиная с культовой эпохи GTX 580 и AlexNet, цена которой составляла всего 499 долларов, он тонко контрастировал с сегодняшним стремительным ростом цен на видеокарты Nvidia.

В докладе были кратко изложены различные стратегии параллелизма и сопутствующие изменения в структуре межсоединений. По сути, это был своего рода образовательный мост для инженеров-чипников, позволивший им понять, чем занимались команды разработчиков инфраструктуры в последние годы.

Ключевые моменты включают в себя переход от числовых форматов FP32 к FP4, что отражает повышение эффективности. Размеры корпусов микросхем стремительно растут, и соответственно расширяются области масштабирования. Для тех, кто работает со стоечными архитектурами ИИ, эта эволюция подчеркивает важность масштабируемых оптических межсоединений — опыт FiberMall в области сетей связи с поддержкой ИИ обеспечивает бесперебойную интеграцию для решения таких задач.
2. Масштабирование технологий фабрик для кластеров ИИ
Ещё одна сессия, организованная AMD, была посвящена основам масштабирования. Были перечислены распространённые технологии масштабирования, но, что примечательно, UB от Huawei была упущена — за эту оплошность снимаем баллы!

В презентации были разъяснены различия между масштабирование вверх и вниз Подчеркнуто, насколько критическим образом принцип коммутации и пути передачи данных влияют на количество масштабируемых графических процессоров и пропускную способность.

Была продемонстрирована типичная однослойная масштабируемая сеть, после чего были рассмотрены вопросы масштабирования уровня 2 и построения сети уровня 1.5 на основе коммутаторов уровня 1. В целом, первые два сеанса были в основном образовательными обзорами, что делает их идеальными для новичков в масштабировании кластеров ИИ. Если вы внедряете их в центрах обработки данных, экономичные оптические решения FiberMall помогут оптимизировать ваши коммутационные технологии для достижения пиковой производительности.

3. Жидкостное охлаждение с характеристиками Google
Компания Google поделилась опытом работы с ТПУ, уделив особое внимание конструкциям модульных насосов для жидкостного охлаждения и другим аспектам.


Примечательно, что их системы пятого поколения разработаны для стоек мощностью 1 МВт, что расширяет границы возможностей терморегулирования в инфраструктурах ИИ. Для подобных высокоплотных систем надёжное охлаждение не подлежит сомнению — оптоволоконные коммуникационные продукты FiberMall поддерживают базовые сети, которые делают такие инновации возможными.
4. Реорганизованные энергосистемы
В этом докладе, представленном компанией Microsoft, обсуждались вопросы подачи питания 800 В постоянного тока. Поскольку масштабирование в пределах одного шкафа требует большего количества графических процессоров, преобразователи питания выносятся наружу, что приводит к дезагрегации питания в стойке (RPD).

Цепь электропитания эволюционирует от современных многоступенчатых трансформаторов переменного тока к системам постоянного тока среднего напряжения (MVDC) напряжением 800 В, в первую очередь для сокращения потерь при преобразованиях переменного тока в постоянный в конечной точке.

Внедрение в будущем твердотельных трансформаторов (SST) на 800 В обещает значительное повышение эффективности. Масштабное обучение приводит к синхронизированным запускам и остановкам графических процессоров, создавая нагрузку на сеть гармониками и реактивной мощностью. В настоящее время для снижения этих проблем используются аккумуляторные батареи (BBU) и конденсаторы на уровне шкафов (CBU). MVDC позволяет компенсировать эти проблемы внутрирядно или на уровне SST.
Подводя итог, можно сказать, что 800-вольтовый MVDC может вдвое сократить потери мощности в центрах обработки данных, что кардинально меняет ситуацию. Интеграция с оптическими сетями таких поставщиков, как FiberMall, обеспечивает комплексную эффективность систем питания ИИ.
5. Пример: Nvidia GB200 NVL72
Nvidia переработала презентацию PPT с прошлогоднего саммита OCP — сплошное негодование. Подробности здесь не вдавались, поскольку она не представляла особой ценности для энтузиастов стоечных систем ИИ.
6. Пример: Catalina от Meta (NVL72)
Без сомнения, это была лучшая сессия дня. Обширная кастомизация стойки GB200 от Meta затмила всех. Для сравнения, сравните её с июльским выпуском инстанса GB200 от AWS, чтобы заметить различия в настройках.
NVL72 от Meta занимает шесть корпусов: два жидкостное охлаждение Блоки на каждом конце (аналогично насосу AWS на ближней стороне с прямым воздушным охлаждением для минимизации модернизации ЦОД). В середине используются парные шкафы NVL36.

Официально Nvidia GB200 объединяет один Grace с двумя B200, что в сумме даёт 18 лотков. Meta использует соотношение Grace к B200 1:1, что даёт 36 вычислительных лотков для расширенной памяти.
Неофициально существуют более глубокие мотивы. Стандартная топология Nvidia на базе CX7 предполагает, что каждый Grace соединяет два B200 через PCIe x1, по два CX7 на каждый Grace (масштабируемость 400 Гбит/с на B200). Два Grace подключаются через 6 портов Clink.
Для GPU-Direct-RDMA (GDR) PCIe GDR ограничивает пропускную способность Gen4 x1, требуя выделения памяти на Grace и доступа NVLink C2C.
Моделирование показало, что B200 нуждается 800Gbps Масштабируемость. AWS использует внешние коммутаторы PCIe (Gen5, но в настоящее время ограничены 400 Гбит/с). Nvidia CX8 имеет встроенный коммутатор PCIe, но сохраняет канал Grace x1 для управления, направляя данные через PCIe в Grace, а затем в NVLink C2C, что требует специальной обработки NCCL 2.27.
Исправление Meta: соотношение 1:1 позволяет Grace подключать две сетевые карты Gen5 x16 CX7 для обеспечения скорости 800 Гбит/с на B200. B200 по-прежнему использует PCIe Gen4 x1 для Grace, но настоящий GDR не является прямым; DMA маршрутизируется через PCIe RC и NVLink C2C Grace.
При соотношении 1:1 взаимодействие сетевого адаптера и центрального процессора (NIC-CPU) даёт преимущество — нет узких мест, связанных с общей памятью центрального процессора. Графические процессоры обрабатывают RDMA через память центрального процессора, экономя около 200 ГБ/с пропускной способности HBM.
Число линий Clink между Grace удваивается до 12 для повышения пропускной способности межсистемного соединения. Без полной поддержки CX8 подход Meta увеличивает масштабируемость до 800 Гбит/с, одновременно увеличивая объём памяти ЦП.
Предположительно, Grace + CX7 имитирует крупногабаритный BF3: массивный DPU с горизонтальным масштабированием с одной стороны, семантическое масштабирование памяти с другой, плюс большой объём памяти. Это перекликается с NetDAM 2021 года, что позволяет использовать KVCache и INCA, а также перекладывать коммуникационные операции на Grace через NVLink C2C.

Вычислительный шкаф Meta включает встроенный резервный аккумулятор (BBU) для резервирования, масштабируемое оптоволоконное подключение через коммутационные панели с запасными портами. Два коммутатора Wedge400 обеспечивают работу интерфейса (200 Гбит/с на Grace через CX7 + модуль безопасности DC-SCM — BF3 здесь не используется).

Для горизонтального масштабирования используется Disaggregated Scheduled Fabric (возможно, по образцу Cisco Silicon One, для устранения конфликтов хэш-адресов нескольких путей).

Добавлено: обнаружение утечек на PDB каждого лотка, подключение к контроллеру управления стойкой (RMC) через RJ45 для GPIO/I2C, а также внешние датчики.

Финал: BMC+TPM спецификации OCP для удаленного управления (без BF3).

Для индивидуальных стоек ИИ, таких как Meta, оптические сети FiberMall с поддержкой ИИ обеспечивают основу для надежных соединений с высокой пропускной способностью.
7. Обзор стойки TPU
Google опубликовала подробную информацию о стойке TPU. В прошлом году анализ охватывал маршрутизацию, защиту, эластичность и планирование межсоединений ICI.

На этот раз: стойка Ironwood в виде блока 4x4x4, подключаемая к оптическим коммутаторам OCS через оптоволоконные жгуты с резервированием и коммутационными панелями.


Жидкостное охлаждение и ИБП расположены на уровне ряда.

В заключение отметим, что нулевой день конференции Hotchip 2025 заложил основу для передовых инноваций в области ИИ-центров обработки данных. Если эти идеи вдохновят вас на создание собственных решений, обратите внимание на FiberMall, где представлены передовые решения для оптической связи, адаптированные для рабочих нагрузок ИИ.
Сопутствующие товары:
-
NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF
$650.00
-
NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF
$650.00
-
NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера
$900.00
-
Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера
$1199.00
-
Совместимый с OSFP NVIDIA MMS4X50-NM 2x400G FR4 PAM4 1310 нм 2 км DOM двухдуплексный оптический модуль LC SMF
$1200.00
-
Совместимый с NVIDIA MCP7Y00-N001 1 м (3 фута) 800Gb OSFP с двумя портами на 2x400G OSFP InfiniBand NDR Breakout Медный кабель прямого подключения
$160.00
-
Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC
$550.00
-
Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера
$700.00
-
Модуль оптического приемопередатчика NVIDIA MMA1Z00-NS400, совместимый с 400G QSFP112 VR4 PAM4 850 нм 50 м MTP/MPO-12 OM4 FEC
$550.00
-
Совместимость с NVIDIA MMS1Z00-NS400 400G NDR QSFP112 DR4 PAM4 1310 нм 500 м MPO-12 с модулем оптического приемопередатчика FEC
$700.00
-
Q112-400GF-MPO1M 400G QSFP112 SR4 MPO-12 Female Plug Pigtail 1m Иммерсионные жидкостные охлаждающие оптические трансиверы
$1950.00
-
Q112-400GM-MPO1M 400G QSFP112 SR4 MPO-12 штекерный соединительный кабель 1 м иммерсионные жидкостные охлаждающие оптические трансиверы
$1950.00
-
Q112-400GF-MPO3M 400G QSFP112 SR4 MPO-12 Female Plug Pigtail 3m Иммерсионные жидкостные охлаждающие оптические трансиверы
$1970.00
-
Q112-400GM-MPO3M 400G QSFP112 SR4 MPO-12 штекерный соединительный кабель 3 м иммерсионные жидкостные охлаждающие оптические трансиверы
$1970.00
-
Q112-400GF-MPO60M 400G QSFP112 SR4 MPO-12 Female Plug Pigtail 60m Иммерсионные жидкостные охлаждающие оптические трансиверы
$2025.00
-
Q112-400GM-MPO60M 400G QSFP112 SR4 MPO-12 штекерный соединительный кабель 60 м иммерсионные жидкостные охлаждающие оптические трансиверы
$2025.00
-
OSFP-400GF-MPO1M 400G OSFP SR4 MPO-12 Female Plug Pigtail 1m Иммерсионные жидкостные охлаждающие оптические трансиверы
$1950.00
-
OSFP-400GM-MPO1M 400G OSFP SR4 MPO-12 штекерный соединительный кабель 1 м иммерсионные жидкостные охлаждающие оптические трансиверы
$1950.00
-
OSFP-400GF-MPO3M 400G OSFP SR4 MPO-12 Female Plug Pigtail 3m Иммерсионные жидкостные охлаждающие оптические трансиверы
$1970.00
-
OSFP-400GM-MPO3M 400G OSFP SR4 MPO-12 штекерный соединительный кабель 3 м иммерсионные жидкостные охлаждающие оптические трансиверы
$1970.00
