Введение в NVIDIA GB200 Superchip и серверы и шкафы с жидкостным охлаждением

Введение

NVIDIA GB200 — это высокоинтегрированный супервычислительный модуль на базе архитектуры NVIDIA Blackwell. Этот модуль объединяет два графических процессора NVIDIA B200 Tensor Core и один центральный процессор NVIDIA Grace, стремясь обеспечить беспрецедентную производительность ИИ.

Благодаря интеграции жидкостного охлаждения различные участники отрасли работают вместе над внедрением этой технологии. Мы считаем, что поскольку контент, генерируемый ИИ (AIGC), обуславливает рост энергопотребления вычислительных чипов ИИ, серверам срочно нужны более эффективные методы охлаждения. Глобальный лидер чипов ИИ NVIDIA (с его новым GB200 с жидкостным охлаждением) и производитель серверов ИИ Supermicro (который планирует расширить стойки с жидкостным охлаждением во втором квартале финансового года 2) поддерживают технологию жидкостного охлаждения. Кроме того, внутреннее отраслевое сотрудничество развивается, о чем свидетельствует выпуск белой книги о технологии жидкостного охлаждения тремя основными операторами связи в июне 24 года, в которой предусмотрено более 2023% проектного масштаба применения жидкостного охлаждения к 50 году и далее. Подводя итог, жидкостное охлаждение продвигается производителями чипов верхнего уровня, производителями серверов, поставщиками IDC нижнего уровня и операторами связи, что, как ожидается, повысит спрос на оборудование для жидкостного охлаждения и строительство новых центров обработки данных с жидкостным охлаждением. По прогнозу DellOro, к 2025 году объем мирового рынка жидкостного охлаждения приблизится к 2 миллиардам долларов.

Базовое введение в GH200 и GB200

Сравнение параметров GH200 и GB200 может обеспечить более четкое и интуитивное понимание GB200.

GH200, выпущенный NVIDIA в 2023 году, объединяет графический процессор H200 с центральным процессором Grace, где один центральный процессор Grace соответствует одному графическому процессору H200. Графический процессор H200 может иметь до 96 ГБ или 144 ГБ памяти. Центральный процессор Grace и графический процессор Hopper соединены между собой через NVLink-C2C с пропускной способностью 900 ГБ/с, а соответствующее энергопотребление составляет 1000 Вт.

Логическая-схема-одного-чипа-NVIDIA-GH200

19 марта 2024 года NVIDIA представила свой самый мощный чип ИИ, GB200, на ежегодной конференции GTC. По сравнению с H100, вычислительная мощность GB200 в шесть раз больше, а для определенных мультимодальных задач ее вычислительная мощность может достигать 30 раз больше, чем у H100, при этом потребление энергии снижается в 25 раз. В отличие от GH200, GB200 состоит из одного ЦП Grace и двух ГП Blackwell, что вдвое увеличивает вычислительную мощность и память ГП. ЦП и ГП по-прежнему соединены между собой через NVLink-C2C с пропускной способностью 900 ГБ/с, а соответствующее энергопотребление составляет 2700 Вт.

GB200
Суперчип NVIDIA GB200
GB200 использует полный чип B200.

Учитывая высокое энергопотребление 2700 Вт, GB200 требует эффективного охлаждения. GB200 NVL72 — это многоузловая система расширения стоечного масштаба с жидкостным охлаждением, подходящая для высокоинтенсивных вычислительных нагрузок.

Серверы и шкафы с жидкостным охлаждением от разных производителей

GB200 в основном поставляется в двух конфигурациях корпуса:

GB200 NVL72 (раскладка 10+9+8)

GB200 NVL36x2 (компоновка 5+9+4)

Шкаф GB200 NVL72

Шкаф GB200 NVL72 имеет общую потребляемую мощность около 120 кВт. В то время как стандартные шкафы ЦП поддерживают до 12 кВт на стойку, более плотные шкафы H100 с воздушным охлаждением обычно поддерживают около 40 кВт на стойку. Как правило, для отдельных шкафов, превышающих 30 кВт, рекомендуется жидкостное охлаждение, поэтому шкаф GB200 NVL72 использует жидкостное охлаждение.

Шкаф GB200 NVL72 состоит из 18 вычислительных узлов 1U и 9 NVSwitch. Каждый вычислительный узел имеет высоту 1U и содержит 2 платы Bianca. Каждая плата Bianca включает 1 ЦП Grace и 2 ГП Blackwell. Лоток NVSwitch имеет две 28.8 Гбит/с микросхемы NVSwitch5 ASIC.

Такая конфигурация шкафа в настоящее время применяется редко, поскольку большинство инфраструктур центров обработки данных, даже с прямым жидкостным охлаждением (DLC), не могут поддерживать такую ​​высокую плотность стоек.

gb200 nvl72 шкаф

Шкаф GB200 NVL36x2 состоит из двух соединенных между собой шкафов. Ожидается, что эта конфигурация будет наиболее часто используемой для стоек GB200. Каждая стойка содержит 18 процессоров Grace и 36 графических процессоров Blackwell. Два шкафа поддерживают неблокируемое полное соединение, поддерживая связь между всеми 72 графическими процессорами в NVL72. Каждый вычислительный узел имеет высоту 2U и содержит 2 платы Bianca. Каждый лоток NVSwitch имеет два чипа ASIC NVSwitch28.8 5 Гбит/с, причем каждый чип имеет 14.4 Гбит/с к задней панели и 14.4 Гбит/с к передней панели. Каждый лоток NVSwitch имеет 18 двухпортовых клеток OSFP 1.6T, горизонтально подключенных к паре стоек NVL36.

Шкаф GB200 NVL36x2

На Тайбэйской международной компьютерной выставке 2024 года публично был представлен GB200 NVL72. Большинство производителей представили конфигурации с одним шкафом, такие как Wiwynn, ASRock, GIGABYTE, Supermicro и Inventec, с серверами вычислительных узлов 1U. GIGABYTE, Inventec и Pegatron также представили серверы вычислительных узлов 2U, назвав эту конфигурацию GB200 NVL36.

Далее мы представим серверы и шкафы с жидкостным охлаждением от различных производителей.

NVIDIA

На GTC 2024 NVIDIA продемонстрировала стойку, сконфигурированную с DGX GB200 NVL72, полностью соединенную через NVLink. Весь шкаф весит приблизительно 1.36 тонны (3,000 фунтов). Эта система является усовершенствованной версией стоечной системы Grace-Hopper Superchip, представленной NVIDIA в ноябре 2023 года, но с более чем вдвое большим количеством графических процессоров.

Флагманская система

Флагманская система представляет собой одну стойку с потребляемой мощностью 120 кВт. Большинство центров обработки данных могут поддерживать до 60 кВт на стойку. Для тех, кто не может развернуть одну стойку на 120 кВт или 8-стоечный SuperPOD, приближающийся к 1 МВт, можно использовать конфигурацию шкафа NVL36x2.

NVIDIA DGX GB200 NVL72 передняя панель

В верхней части шкафа находятся два 52-портовых коммутатора Spectrum (48 гигабитных портов RJ45 + 4 порта агрегации QSFP28 100 Гбит/с). Эти коммутаторы управляют и передают различные данные с вычислительных узлов, коммутаторов NVLink и силовых фреймов, составляющих систему.

Под этими переключателями находятся три из шести силовых рам в шкафу, а остальные три расположены внизу. Эти силовые рамы подают электроэнергию в шкаф мощностью 120 кВт. Предполагается, что для удовлетворения этого требования достаточно шести блоков питания 415 В, 60 А, с некоторой избыточностью, встроенной в конструкцию. Рабочий ток этих блоков питания может превышать 60 А. Каждое устройство питается через шину в задней части шкафа.

переключатель nvidia

Под тремя верхними силовыми фреймами находятся десять вычислительных узлов 1U. На передней панели каждого узла имеется четыре сетевых адаптера InfiniBand (четыре отсека QSFP-DD слева и в центре передней панели), образующие вычислительную сеть. Система также оснащена DPU BlueField-3, которые, как говорят, обеспечивают связь с сетью хранения данных. Помимо нескольких портов управления, есть четыре лотка для дисков E1.S.

Каждый вычислительный узел содержит два процессора Grace Arm.

Каждый вычислительный узел содержит два процессора Grace Arm, каждый процессор Grace подключен к двум графическим процессорам Blackwell. Потребляемая мощность каждого узла составляет от 5.4 кВт до 5.7 кВт, при этом большая часть тепла рассеивается посредством жидкостного охлаждения с прямым охлаждением кристалла (DTC).

NVSwitches

GB200 прото
NVSwitches
жидкостное охлаждение

Под десятью вычислительными узлами находятся девять NVSwitches. Золотые компоненты на панели — это ручки для вставки и извлечения коммутаторов.

Золотые элементы на панели — это ручки для установки и снятия переключателей.

Каждый коммутатор NVLink содержит два чипа коммутатора NVLink, которые также используют жидкостное охлаждение.

внутри коммутатора

В нижней части шкафа, под девятью NVSwitch, расположены восемь вычислительных узлов высотой 1U.

В нижней части шкафа, под девятью NVSwitch, расположены восемь вычислительных узлов высотой 1U.

В задней части шкафа используется конструкция шины питания blind-mate, а также разъемы для подачи охлаждающей жидкости и соединения NVLink с каждым устройством. Каждому компоненту требуется некоторое пространство для перемещения, чтобы обеспечить надежность соединений blind-mate.

конструкция шины питания слепого мейта

По словам Дженсена Хуанга, охлаждающая жидкость поступает в стойку со скоростью 2 л/с, при этом температура на входе составляет 25°C, а на выходе превышает 20°C.

охлаждающая жидкость поступает в стойку

NVIDIA утверждает, что использование медного (оптоволоконного) NVLink в задней части шкафа может сэкономить около 20 кВт мощности на шкаф. Общая длина всех медных кабелей оценивается в более чем 2 мили (3.2 километра). Это объясняет, почему коммутаторы NVLink расположены в середине шкафа, так как это минимизирует длину кабеля.

NVIDIA DGX GB200 NVL72 NVLink Spine без оптики

Supermicro

супермикро 1
супермикро 2
супермикро 3
супермикро 4

Системы Supermicro NVIDIA MGX™

Системы 1U NVIDIA GH200 Grace Hopper™ Superchip

супермикро 5

Foxconn

18 марта 2024 года на конференции NVIDIA GTC дочерняя компания Foxconn Ingrasys представила сервер с жидкостным охлаждением NVL72, использующий чип NVIDIA GB200. Этот сервер объединяет 72 графических процессора NVIDIA Blackwell и 36 процессоров NVIDIA Grace.

У Jensen Huang и Foxconn хорошие отношения, с многочисленным сотрудничеством в области серверов и других областей. Последний суперсервер ИИ от Foxconn, DGX GB200, начнет массовое производство во второй половине года. Продукты серии GB200 будут поставляться в стоечном исполнении с предполагаемым объемом заказа до 50,000 200 шкафов. В настоящее время Foxconn имеет три основных новых продукта в серии системных шкафов DGX GB72: DGX NVL32, NVL200 и HGX BXNUMX. Они являются главными победителями этого перехода поколения платформы.

стойка ИИ

Новое поколение стоечных решений с жидкостным охлаждением для искусственного интеллекта NVIDIA GB200 NVL72 объединяет 36 суперчипов NVIDIA GB200 Grace Blackwell, включающих 72 графических процессора на базе NVIDIA Blackwell и 36 центральных процессоров NVIDIA Grace. Они соединены между собой посредством пятого поколения NVIDIA NVLink, образуя один большой графический процессор.

NVIDIA GB200 Грейс Блэквелл
метизный завод

Технология облачных вычислений Quanta (QCT)

Технология облачных вычислений Quanta (QCT)
стойка для охлаждения

На мероприятии QCT представила свою модель 1U, QuantaGrid D75B-1U. В рамках системной платформы NVIDIA GB200 NVL72 эта модель может вместить 72 устройства в одном шкафу. D75B-1U оснащен двумя чипами GB200 Grace Blackwell Superchips. QCT подчеркнула, что ЦП может получить доступ к 480 ГБ памяти LPDDR5X, а ГП оснащен 144 ГБ памяти HBM3e с высокой пропускной способностью, оба оснащены аксессуарами для жидкостного охлаждения Cold Plate. Что касается хранилища, этот сервер 1U может вместить восемь 15-миллиметровых E1.S PCIe SSD и один M.2 2280 PCIe SSD. Для расширения устройств PCIe D75B-1U может вместить две интерфейсные карты двойной ширины полной высоты полной длины и две интерфейсные карты половинной высоты половинной длины, все с поддержкой PCIe 5.0 x16.

QuantaGrid D75B-1U
QuantaGrid D75B-1U ИИ

Уивинн

Будучи важным партнером NVIDIA, Wiwynn является одной из первых компаний, которая соответствует стандарту NVIDIA GB200 NVL72. На GTC 2024 Wiwynn продемонстрировала свои новейшие решения для вычислений на базе ИИ. Недавно выпущенный суперчип NVIDIA GB200 Grace Blackwell поддерживает новейшую платформу NVIDIA Quantum-X800 InfiniBand и NVIDIA Spectrum-X800 Ethernet. Это включает в себя новую стоечную серверную стойку с жидкостным охлаждением для ИИ, работающую на системе NVIDIA GB200 NVL72. Wiwynn использует свои сильные стороны в высокоскоростной передаче данных, энергоэффективности, системной интеграции и передовых технологиях охлаждения. Ее цель — удовлетворить новые требования к производительности, масштабируемости и разнообразию в экосистеме центров обработки данных.

Вивинн GB200 NVL72
поддержку

Wiwynn также запустила UMS100 (Universal Liquid-Cooling Management System), усовершенствованную систему управления жидкостным охлаждением на уровне стойки, разработанную для удовлетворения растущего спроса на высокую вычислительную мощность и эффективные механизмы охлаждения в эпоху генеративного ИИ (GenAI). Эта инновационная система предлагает ряд функций, включая мониторинг в реальном времени, оптимизацию энергии охлаждения, быстрое обнаружение утечек и локализацию. Она также разработана для плавной интеграции с существующими системами управления центрами обработки данных через интерфейс Redfish. Она поддерживает стандартные отраслевые протоколы и совместима с различными блоками распределения охлаждения (CDU) и боковыми шкафами.

ASUS

На выставке Computex Taipei 2024 компания ASUS представила несколько серверов ИИ. К ним относятся новые серверы NVIDIA Blackwell, а именно серверы B100, B200 и GB200, а также серверы AMD MI300X. Кроме того, есть серверы Intel Xeon 6 и серверы AMD EPYC Turin с TDP ЦП до 500 Вт.

Изюминкой является ASUS ESC AI POD, оснащенный версией NVIDIA GB200 NVL72.

ASUS ESC AI POD
ASUS ESC AI POD 2
ASUS
ASUS NVIDIA GB200 NVL72

ASUS также продемонстрировала внешний вид одного из узлов. В шасси 1U мы видим шину питания и два узла GB200 с жидкостным охлаждением. Эти узлы оснащены двумя чипами GB200 Grace Blackwell Superchips, оба покрыты охлаждающими пластинами. В середине шасси находится плата распределения питания (PDB), предназначенная для преобразования 48-вольтового постоянного тока в 12-вольтовый постоянный ток для питания графических процессоров Blackwell. Кроме того, этот вычислительный слот включает в себя модуль хранения для твердотельных накопителей форм-фактора E1.S и две карты процессора данных BlueField-3 серии B3240 в форм-факторе двойной ширины, полной высоты и половинной длины.

Распределительная плата
ВНУТРЕННИЙ КОЛЛЕКТОР
ESC AI POD

Для пользователей, ищущих недорогие вычисления Arm и графические процессоры NVIDIA, есть двойная платформа NVIDIA Grace Hopper GH200, известная как ASUS ESC NM2-E1. Она объединяет два блока CPU и GPU Grace Hopper в одну систему.

ESC NM2 E1

Inventec

На мероприятии Inventec продемонстрировала шкафной уровень GB200 NVL72 вместе с серверами Artemis 1U и 2U. Эти серверы оснащены двумя GB200 Grace Blackwell Superchips, сетевыми картами ConnectX-7 400Gb/s InfiniBand и процессорами данных BlueField-3 400Gb/s.

Inventec_1
Inventec_6
  • 120 кВт на шкаф
  • Силовая шина — 1400 А
  • 8*33 кВт полок питания — 1+1 резервный
  • Заглушка для жидкостного охлаждения + заглушка для шины + заглушка для связи
  • Охлаждающий блок заднего шкафа, известный как «Side Car»

«Side Car» — это шкаф жидкостного охлаждения, разработанный для серверного шкафа, напоминающий коляску мотоцикла и обеспечивающий эффективное решение для охлаждения.

Оставьте комментарий

Наверх