Недавно в сети был опубликован рекламный видеоролик кластера xAI 100,000 GPU Маска. Спонсируемый Supermicro, видеоролик содержит введение на месте от иностранного эксперта в центре обработки данных, который в течение 15 минут обсуждает различные аспекты кластера 100,000 GPU. К этим аспектам относятся плотность развертывания, распределение шкафов, решение для жидкостного охлаждения, методы обслуживания, конфигурация сетевой карты, характеристики коммутатора и источник питания. Однако в видеоролике не было много информации о дизайне сети, системе хранения или ходе обучения модели. Давайте рассмотрим десять ключевых идей!

Содержание
ПереключатьМасштаб большого кластера
В отличие от более распространенных кластеров в нашей стране, обычно состоящих из 1,000 GPU (эквивалентно 128 системам H100), кластер из 100,000 100 GPU в 12,800 раз больше, требуя приблизительно 100 122 систем HXNUMX. Рекламный видеоролик утверждает, что развертывание было завершено всего за XNUMX дня, что демонстрирует значительное различие между возможностями отечественных и международных кластеров GPU.

Высокая вычислительная плотность
На видео показано, что H100 использует конструкцию стойки 4U, в которой каждый шкаф развертывает 8 систем, что эквивалентно 64 графическим процессорам на шкаф. Ряд шкафов содержит 8 шкафов, что составляет 512 графических процессоров на ряд. Кластер из 100,000 200 графических процессоров состоит примерно из 1 рядов шкафов. Внутри страны чаще всего размещают 2-100 системы H100 на шкаф, каждая система H10.2 потребляет 8 кВт. Развертывание 80 систем превышает XNUMX кВт, что дает ориентир для будущих развертываний кластеров высокой плотности.

Широкомасштабное внедрение жидкостного охлаждения Cold Plate
Хотя технология жидкостного охлаждения разрабатывалась в стране много лет, ее крупномасштабная поставка встречается редко. Видео демонстрирует, что кластер из 100,000 XNUMX графических процессоров использует современное решение жидкостного охлаждения с холодными пластинами, охватывающее чипы графического процессора и центрального процессора (в то время как другие компоненты, такие как память и жесткие диски, по-прежнему требуют воздушного охлаждения). В нижней части каждого шкафа имеется CDU (блок распределения охлаждения), настроенный распределенным образом, с резервными насосами для предотвращения сбоев системы из-за отдельных сбоев.

Сетевая карта и сетевое решение – RoCE
Хотя в видео не описывается топология сети, в нем упоминается, что каждое устройство H100 оснащено 8 картами Mellanox BFD-3 (по одной для каждого графического процессора и соответствующей карты BFD-3) и одной сетевой картой CX7 400G. Это отличается от текущих внутренних конфигураций, и в видео не дается объяснения этой настройки. Кроме того, сетевое решение использует RoCE вместо более распространенной внутри страны сети IB, вероятно, из-за экономической эффективности RoCE и ее зрелости в работе с крупномасштабными кластерами. Mellanox остается брендом коммутаторов по выбору.

Модель коммутатора и характеристики
Видео представляет модель коммутатора как коммутатор NVIDIA Spectrum-x SN5600 Ethernet, который имеет 64 физических интерфейса 800G, которые можно преобразовать в 128 интерфейсов 400G. Такая конфигурация значительно сокращает количество необходимых коммутаторов, потенциально становясь будущей тенденцией в проектировании сетей.

Модульное обслуживание серверов GPU
Мы все знаем, что частота отказов графических процессоров H100 значительно выше, чем у серверов общего назначения, что делает замену и ремонт довольно сложными. Видео демонстрирует платформу Supermicro 4U H100, которая поддерживает обслуживание в стиле ящика для модулей графического процессора и центрального процессора. Как показано на изображении, есть ручка, которая позволяет легко снимать и обслуживать без необходимости разбирать весь сервер, что значительно повышает эффективность обслуживания.

Индикаторы цвета корпуса
Как показано на изображении, синий эффект обеспечивает сильное технологическое ощущение, одновременно указывая на то, что оборудование работает нормально. Если в шкафу возникает проблема, изменение цвета индикаторных ламп позволяет обслуживающему персоналу быстро определить неисправный шкаф. Хотя это и не передовая технология, это довольно интересно и практично.

Постоянная потребность в серверах общего назначения
При проектировании решений интеллектуальных вычислительных центров многие часто упускают из виду серверы общего назначения. Хотя серверы GPU являются ядром, многие вспомогательные задачи управления по-прежнему требуют поддержки серверов общего назначения. Видео демонстрировало высокоплотные серверы 1U, обеспечивающие вычислительную мощность ЦП, сосуществующие с узлами GPU без конфликтов. Узлы ЦП в основном поддерживают бизнес-системы, связанные с управлением.

Важность систем хранения
Хотя в видео не была подробно описана конструкция системы хранения, в нем кратко продемонстрирован этот важный модуль для интеллектуальных вычислительных центров. Хранилище имеет решающее значение для поддержки хранения данных в учебных системах, напрямую влияя на эффективность обучения. Поэтому интеллектуальные вычислительные центры обычно выбирают высокопроизводительное хранилище GPFS для построения распределенных файловых систем.

Система гарантированного электроснабжения
На видео показан большой аккумуляторный блок, подготовленный специально для кластера из 100,000 XNUMX графических процессоров. Система питания подключается к аккумуляторному блоку, который затем подает питание на кластер, эффективно снижая риски, связанные с нестабильным питанием. Хотя было раскрыто не так много информации, она подчеркивает важность надежного питания для систем интеллектуального вычислительного центра.

Продолжение следует: продолжающееся расширение кластера
В заключение видео говорится, что кластер из 100,000 XNUMX графических процессоров — это всего лишь этап, и системная инженерия все еще продолжается.

Сопутствующие товары:
-
OSFP-800G-FR4 800G OSFP FR4 (200G на линию) PAM4 CWDM Duplex LC 2 км SMF Оптический модуль приемопередатчика
$3500.00
-
OSFP-800G-2FR2L 800G OSFP 2FR2 (200G на линию) PAM4 1291/1311 нм 2 км DOM Duplex LC SMF Оптический модуль приемопередатчика
$3000.00
-
OSFP-800G-2FR2 800G OSFP 2FR2 (200G на линию) PAM4 1291/1311 нм 2 км DOM Dual CS SMF Оптический модуль приемопередатчика
$3000.00
-
OSFP-800G-DR4 800G OSFP DR4 (200G на линию) PAM4 1311 нм MPO-12 500 м SMF DDM Оптический модуль приемопередатчика
$3000.00
-
Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера
$1199.00
-
NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF
$650.00
-
NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера
$900.00
-
NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF
$650.00
-
Совместимость с NVIDIA MMS1Z00-NS400 400G NDR QSFP112 DR4 PAM4 1310 нм 500 м MPO-12 с модулем оптического приемопередатчика FEC
$700.00
-
Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера
$700.00
-
Модуль оптического приемопередатчика NVIDIA MMA1Z00-NS400, совместимый с 400G QSFP112 VR4 PAM4 850 нм 50 м MTP/MPO-12 OM4 FEC
$550.00
-
Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC
$550.00
-
Совместимый с OSFP NVIDIA MMS4X50-NM 2x400G FR4 PAM4 1310 нм 2 км DOM двухдуплексный оптический модуль LC SMF
$1200.00
-
OSFP-XD-1.6T-4FR2 1.6T OSFP-XD 4xFR2 PAM4 1291/1311nm 2 км SN SMF Оптический модуль приемопередатчика
$15000.00
-
OSFP-XD-1.6T-2FR4 1.6T OSFP-XD 2xFR4 PAM4 2x CWDM4 2 км двухдуплексный LC SMF оптический приемопередающий модуль
$20000.00
-
OSFP-XD-1.6T-DR8 1.6T OSFP-XD DR8 PAM4 1311 нм 2 км MPO-16 Модуль оптического приемопередатчика SMF
$12000.00
