Ключевые сведения о кластере графических процессоров xAI 100,000 Маска

Недавно в сети был опубликован рекламный видеоролик кластера xAI 100,000 GPU Маска. Спонсируемый Supermicro, видеоролик содержит введение на месте от иностранного эксперта в центре обработки данных, который в течение 15 минут обсуждает различные аспекты кластера 100,000 GPU. К этим аспектам относятся плотность развертывания, распределение шкафов, решение для жидкостного охлаждения, методы обслуживания, конфигурация сетевой карты, характеристики коммутатора и источник питания. Однако в видеоролике не было много информации о дизайне сети, системе хранения или ходе обучения модели. Давайте рассмотрим десять ключевых идей!

крупнейший кластер искусственного интеллекта в мире

Масштаб большого кластера

В отличие от более распространенных кластеров в нашей стране, обычно состоящих из 1,000 GPU (эквивалентно 128 системам H100), кластер из 100,000 100 GPU в 12,800 раз больше, требуя приблизительно 100 122 систем HXNUMX. Рекламный видеоролик утверждает, что развертывание было завершено всего за XNUMX дня, что демонстрирует значительное различие между возможностями отечественных и международных кластеров GPU.

Масштаб большого кластера

Высокая вычислительная плотность

На видео показано, что H100 использует конструкцию стойки 4U, в которой каждый шкаф развертывает 8 систем, что эквивалентно 64 графическим процессорам на шкаф. Ряд шкафов содержит 8 шкафов, что составляет 512 графических процессоров на ряд. Кластер из 100,000 200 графических процессоров состоит примерно из 1 рядов шкафов. Внутри страны чаще всего размещают 2-100 системы H100 на шкаф, каждая система H10.2 потребляет 8 кВт. Развертывание 80 систем превышает XNUMX кВт, что дает ориентир для будущих развертываний кластеров высокой плотности.

Высокая вычислительная плотность

Широкомасштабное внедрение жидкостного охлаждения Cold Plate

Хотя технология жидкостного охлаждения разрабатывалась в стране много лет, ее крупномасштабная поставка встречается редко. Видео демонстрирует, что кластер из 100,000 XNUMX графических процессоров использует современное решение жидкостного охлаждения с холодными пластинами, охватывающее чипы графического процессора и центрального процессора (в то время как другие компоненты, такие как память и жесткие диски, по-прежнему требуют воздушного охлаждения). В нижней части каждого шкафа имеется CDU (блок распределения охлаждения), настроенный распределенным образом, с резервными насосами для предотвращения сбоев системы из-за отдельных сбоев.

Широкомасштабное внедрение жидкостного охлаждения с помощью холодных пластин

Сетевая карта и сетевое решение – RoCE

Хотя в видео не описывается топология сети, в нем упоминается, что каждое устройство H100 оснащено 8 картами Mellanox BFD-3 (по одной для каждого графического процессора и соответствующей карты BFD-3) и одной сетевой картой CX7 400G. Это отличается от текущих внутренних конфигураций, и в видео не дается объяснения этой настройки. Кроме того, сетевое решение использует RoCE вместо более распространенной внутри страны сети IB, вероятно, из-за экономической эффективности RoCE и ее зрелости в работе с крупномасштабными кластерами. Mellanox остается брендом коммутаторов по выбору.

Сетевая карта и сетевое решение - RoCE

Модель коммутатора и характеристики

Видео представляет модель коммутатора как коммутатор NVIDIA Spectrum-x SN5600 Ethernet, который имеет 64 физических интерфейса 800G, которые можно преобразовать в 128 интерфейсов 400G. Такая конфигурация значительно сокращает количество необходимых коммутаторов, потенциально становясь будущей тенденцией в проектировании сетей.

Модель коммутатора и характеристики

Модульное обслуживание серверов GPU

Мы все знаем, что частота отказов графических процессоров H100 значительно выше, чем у серверов общего назначения, что делает замену и ремонт довольно сложными. Видео демонстрирует платформу Supermicro 4U H100, которая поддерживает обслуживание в стиле ящика для модулей графического процессора и центрального процессора. Как показано на изображении, есть ручка, которая позволяет легко снимать и обслуживать без необходимости разбирать весь сервер, что значительно повышает эффективность обслуживания.

Модульное обслуживание серверов GPU

Индикаторы цвета корпуса

Как показано на изображении, синий эффект обеспечивает сильное технологическое ощущение, одновременно указывая на то, что оборудование работает нормально. Если в шкафу возникает проблема, изменение цвета индикаторных ламп позволяет обслуживающему персоналу быстро определить неисправный шкаф. Хотя это и не передовая технология, это довольно интересно и практично.

Индикаторы цвета корпуса

Постоянная потребность в серверах общего назначения

При проектировании решений интеллектуальных вычислительных центров многие часто упускают из виду серверы общего назначения. Хотя серверы GPU являются ядром, многие вспомогательные задачи управления по-прежнему требуют поддержки серверов общего назначения. Видео демонстрировало высокоплотные серверы 1U, обеспечивающие вычислительную мощность ЦП, сосуществующие с узлами GPU без конфликтов. Узлы ЦП в основном поддерживают бизнес-системы, связанные с управлением.

Постоянная потребность в серверах общего назначения

Важность систем хранения

Хотя в видео не была подробно описана конструкция системы хранения, в нем кратко продемонстрирован этот важный модуль для интеллектуальных вычислительных центров. Хранилище имеет решающее значение для поддержки хранения данных в учебных системах, напрямую влияя на эффективность обучения. Поэтому интеллектуальные вычислительные центры обычно выбирают высокопроизводительное хранилище GPFS для построения распределенных файловых систем.

Важность систем хранения

Система гарантированного электроснабжения

На видео показан большой аккумуляторный блок, подготовленный специально для кластера из 100,000 XNUMX графических процессоров. Система питания подключается к аккумуляторному блоку, который затем подает питание на кластер, эффективно снижая риски, связанные с нестабильным питанием. Хотя было раскрыто не так много информации, она подчеркивает важность надежного питания для систем интеллектуального вычислительного центра.

Система гарантированного электроснабжения

Продолжение следует: продолжающееся расширение кластера

В заключение видео говорится, что кластер из 100,000 XNUMX графических процессоров — это всего лишь этап, и системная инженерия все еще продолжается.

Продолжение следует Постоянное расширение кластера
Наверх