NVIDIA HGX B200 и мысли о ее решении жидкостного охлаждения

NVIDIA HGX B200 — новейшая высокопроизводительная вычислительная платформа NVIDIA, основанная на архитектуре Blackwell GPU. Она объединяет несколько передовых технологий и компонентов, разработанных для обеспечения исключительной вычислительной производительности и энергоэффективности.

HGX B200 с воздушным охлаждением

Общая высота системы с модулем воздушного охлаждения HGX B200 достигает 10U, при этом сам модуль воздушного охлаждения HGX B200 занимает около 6U.

Сервер Exxact TensorEX 10U HGX B200

Сервер Exxact TensorEX 10U HGX B200

6x 5250 Вт резервных (3 + 3) блоков питания

суперсервер

SuperServer SYS-A22GA-NBRT(10U)6x 5250 Вт резервных (3 + 3) блоков питания

На глобальном саммите OCP 2024 было представлено несколько новых фотографий NVIDIA HGX B200. По сравнению с NVIDIA HGX A100/H100/H200, существенным изменением является перемещение чипа коммутатора NVLink в центр компонента, а не на одну сторону. Это изменение минимизирует максимальное расстояние связи между графическими процессорами и чипом коммутатора NVLink. Теперь коммутатор NVLink состоит всего из двух чипов по сравнению с четырьмя в предыдущем поколении, и их размер заметно увеличился.

Возле краевых разъемов PCIe Retimer заменил NVSwitch. Эти Retimer обычно используют меньшие радиаторы, поскольку их TDP (Thermal Design Power) составляет около 10-15 Вт.

HGX B200 mainbroad без радиатора

Материнская плата HGX B200 без радиаторов – 1

HGX B200 mainbroad без радиатора-2

Материнская плата HGX B200 без радиаторов – 2

Ретаймер

Радиатор чипа таймера материнской платы HGX B200

Шелкография на верхней поверхности разъема EXAMAX указывает, что это базовая плата Umbriel GB200 SXM6 8 GPU с номером детали: 675-26287-00A0-TS53. При более внимательном рассмотрении выясняется, что производителем чипа Retimer является Astera Labs.

Номер детали B200

Информация о номере детали NVIDIA HGX B200

Микросхема ретаймера NVIDIA HGX B200 Astera Labs крупным планом

Микросхема ретаймера NVIDIA HGX B200 Astera Labs крупным планом

Периметр материнской платы HGX B200 заключен в монтажную раму из черного алюминиевого сплава, которая используется для крепления радиаторов и крепления теплопроводящих материалов.

Монтажная рама радиатора материнской платы NVIDIA HGX B200

Монтажная рама радиатора материнской платы NVIDIA HGX B200

Ниже представлены изображения чипа коммутатора NVLink, представленного на глобальном саммите OCP 2024.

Чип коммутатора NVIDIA HGX B200 NVLink крупным планом

Соображения по выбору решения для жидкостного охлаждения HGX B200

NVIDIA установила два значения TDP (Thermal Design Power) для B200: 1200 Вт для жидкостного охлаждения и 1000 Вт для воздушного охлаждения. Кроме того, B100 предлагает диапазон 700 Вт, аналогичный предыдущему H100 SXM, что позволяет OEM-производителям повторно использовать конструкцию воздушного охлаждения 700 Вт. Более высокие пределы TDP коррелируют с повышенными тактовыми частотами и количеством включенных арифметических блоков, тем самым повышая производительность. Фактически, производительность FP4 (Tensor Core) для B200/1200W составляет 20 PFLOPS, для B200/1000W — 18 PFLOPS, а для B100/700W — 14 PFLOPS.

Система OAI использует контур из 4×2 холодных пластин (т. е. водопроводной трубы), при этом холодная жидкость изначально течет в холодные пластины по OAM 1-4, поглощая тепло, а затем слегка нагреваясь перед прохождением через холодные пластины по OAM 5-8. Это напоминает воздушное охлаждение, где поток воздуха последовательно проходит через радиаторы двух ЦП.

Напротив, схема контура охлаждающих пластин 8×1 равномерно распределяет холодную жидкость по всем 8 OAM, избегая более высоких температур в половине OAM, но потенциально влекущая за собой более высокие затраты из-за дополнительных трубопроводов.

ОАМ 1.5

В спецификации OAM 1.5 сборка охлаждающей пластины представлена ​​в конфигурации «4 параллельно-2 последовательно».

4-параллельно-2-последовательно

Конфигурация 4-параллельно-2-последовательно против 8×1

nvidia h100 холодная пластина
Модуль H3C R5500 G6 H100

Модуль жидкостного охлаждения H3C R5500 G6 H100, 4 параллельных, 3 последовательных (2 графических процессора параллельно + 1 коммутатор последовательно)

H100 8+4 (конфигурация 4-параллельно-3-последовательно)

На основе приведенных выше конфигураций охлаждающей пластины H100 соображения относительно решения жидкостного охлаждения B200 следующие: 8 графических процессоров и 2 коммутатора делятся на 2 группы. Каждая группа состоит из 4 графических процессоров и 1 коммутатора. Обе группы используют одну и ту же схему жидкостного охлаждения. Каждая группа имеет 2 входных и 2 выходных порта для охлаждающих пластин. Верхние 2 графических процессора параллельны и последовательно соединены с коммутатором, а нижние 2 графических процессора также параллельны и последовательно соединены с тем же коммутатором, в результате чего на охлаждающей пластине коммутатора имеется 4 входных/выходных порта.

В качестве альтернативы коллектор может быть спроектирован с 6 входами и 6 выходами, где 4 из входов и выходов используются для 8 GPU (конфигурация 4-параллельно-2-последовательно), а другие 2 входа и 2 выхода предназначены для 2 Switch, каждый из которых подключен к коллектору. Этот подход требует тщательного рассмотрения пути маршрутизации и ограничений пространства для трубопровода. Однако, независимо от выбранного решения, необходимы детальная оценка моделирования и практическое проектирование системы.

Оставьте комментарий

Наверх