Введение
NVIDIA GB200 — это высокоинтегрированный супервычислительный модуль на базе архитектуры NVIDIA Blackwell. Этот модуль объединяет два графических процессора NVIDIA B200 Tensor Core и один центральный процессор NVIDIA Grace, стремясь обеспечить беспрецедентную производительность ИИ.
Благодаря интеграции жидкостного охлаждения различные участники отрасли работают вместе над внедрением этой технологии. Мы считаем, что поскольку контент, генерируемый ИИ (AIGC), обуславливает рост энергопотребления вычислительных чипов ИИ, серверам срочно нужны более эффективные методы охлаждения. Глобальный лидер чипов ИИ NVIDIA (с его новым GB200 с жидкостным охлаждением) и производитель серверов ИИ Supermicro (который планирует расширить стойки с жидкостным охлаждением во втором квартале финансового года 2) поддерживают технологию жидкостного охлаждения. Кроме того, внутреннее отраслевое сотрудничество развивается, о чем свидетельствует выпуск белой книги о технологии жидкостного охлаждения тремя основными операторами связи в июне 24 года, в которой предусмотрено более 2023% проектного масштаба применения жидкостного охлаждения к 50 году и далее. Подводя итог, жидкостное охлаждение продвигается производителями чипов верхнего уровня, производителями серверов, поставщиками IDC нижнего уровня и операторами связи, что, как ожидается, повысит спрос на оборудование для жидкостного охлаждения и строительство новых центров обработки данных с жидкостным охлаждением. По прогнозу DellOro, к 2025 году объем мирового рынка жидкостного охлаждения приблизится к 2 миллиардам долларов.
Базовое введение в GH200 и GB200
Сравнение параметров GH200 и GB200 может обеспечить более четкое и интуитивное понимание GB200.
GH200, выпущенный NVIDIA в 2023 году, объединяет графический процессор H200 с центральным процессором Grace, где один центральный процессор Grace соответствует одному графическому процессору H200. Графический процессор H200 может иметь до 96 ГБ или 144 ГБ памяти. Центральный процессор Grace и графический процессор Hopper соединены между собой через NVLink-C2C с пропускной способностью 900 ГБ/с, а соответствующее энергопотребление составляет 1000 Вт.
19 марта 2024 года NVIDIA представила свой самый мощный чип ИИ, GB200, на ежегодной конференции GTC. По сравнению с H100, вычислительная мощность GB200 в шесть раз больше, а для определенных мультимодальных задач ее вычислительная мощность может достигать 30 раз больше, чем у H100, при этом потребление энергии снижается в 25 раз. В отличие от GH200, GB200 состоит из одного ЦП Grace и двух ГП Blackwell, что вдвое увеличивает вычислительную мощность и память ГП. ЦП и ГП по-прежнему соединены между собой через NVLink-C2C с пропускной способностью 900 ГБ/с, а соответствующее энергопотребление составляет 2700 Вт.
Учитывая высокое энергопотребление 2700 Вт, GB200 требует эффективного охлаждения. GB200 NVL72 — это многоузловая система расширения стоечного масштаба с жидкостным охлаждением, подходящая для высокоинтенсивных вычислительных нагрузок.
Серверы и шкафы с жидкостным охлаждением от разных производителей
GB200 в основном поставляется в двух конфигурациях корпуса:
GB200 NVL72 (раскладка 10+9+8)
GB200 NVL36x2 (компоновка 5+9+4)
Шкаф GB200 NVL72
Шкаф GB200 NVL72 имеет общую потребляемую мощность около 120 кВт. В то время как стандартные шкафы ЦП поддерживают до 12 кВт на стойку, более плотные шкафы H100 с воздушным охлаждением обычно поддерживают около 40 кВт на стойку. Как правило, для отдельных шкафов, превышающих 30 кВт, рекомендуется жидкостное охлаждение, поэтому шкаф GB200 NVL72 использует жидкостное охлаждение.
Шкаф GB200 NVL72 состоит из 18 вычислительных узлов 1U и 9 NVSwitch. Каждый вычислительный узел имеет высоту 1U и содержит 2 платы Bianca. Каждая плата Bianca включает 1 ЦП Grace и 2 ГП Blackwell. Лоток NVSwitch имеет две 28.8 Гбит/с микросхемы NVSwitch5 ASIC.
Такая конфигурация шкафа в настоящее время применяется редко, поскольку большинство инфраструктур центров обработки данных, даже с прямым жидкостным охлаждением (DLC), не могут поддерживать такую высокую плотность стоек.
Шкаф GB200 NVL36x2 состоит из двух соединенных между собой шкафов. Ожидается, что эта конфигурация будет наиболее часто используемой для стоек GB200. Каждая стойка содержит 18 процессоров Grace и 36 графических процессоров Blackwell. Два шкафа поддерживают неблокируемое полное соединение, поддерживая связь между всеми 72 графическими процессорами в NVL72. Каждый вычислительный узел имеет высоту 2U и содержит 2 платы Bianca. Каждый лоток NVSwitch имеет два чипа ASIC NVSwitch28.8 5 Гбит/с, причем каждый чип имеет 14.4 Гбит/с к задней панели и 14.4 Гбит/с к передней панели. Каждый лоток NVSwitch имеет 18 двухпортовых клеток OSFP 1.6T, горизонтально подключенных к паре стоек NVL36.
На Тайбэйской международной компьютерной выставке 2024 года публично был представлен GB200 NVL72. Большинство производителей представили конфигурации с одним шкафом, такие как Wiwynn, ASRock, GIGABYTE, Supermicro и Inventec, с серверами вычислительных узлов 1U. GIGABYTE, Inventec и Pegatron также представили серверы вычислительных узлов 2U, назвав эту конфигурацию GB200 NVL36.
Далее мы представим серверы и шкафы с жидкостным охлаждением от различных производителей.
NVIDIA
На GTC 2024 NVIDIA продемонстрировала стойку, сконфигурированную с DGX GB200 NVL72, полностью соединенную через NVLink. Весь шкаф весит приблизительно 1.36 тонны (3,000 фунтов). Эта система является усовершенствованной версией стоечной системы Grace-Hopper Superchip, представленной NVIDIA в ноябре 2023 года, но с более чем вдвое большим количеством графических процессоров.
Флагманская система
Флагманская система представляет собой одну стойку с потребляемой мощностью 120 кВт. Большинство центров обработки данных могут поддерживать до 60 кВт на стойку. Для тех, кто не может развернуть одну стойку на 120 кВт или 8-стоечный SuperPOD, приближающийся к 1 МВт, можно использовать конфигурацию шкафа NVL36x2.
В верхней части шкафа находятся два 52-портовых коммутатора Spectrum (48 гигабитных портов RJ45 + 4 порта агрегации QSFP28 100 Гбит/с). Эти коммутаторы управляют и передают различные данные с вычислительных узлов, коммутаторов NVLink и силовых фреймов, составляющих систему.
Под этими переключателями находятся три из шести силовых рам в шкафу, а остальные три расположены внизу. Эти силовые рамы подают электроэнергию в шкаф мощностью 120 кВт. Предполагается, что для удовлетворения этого требования достаточно шести блоков питания 415 В, 60 А, с некоторой избыточностью, встроенной в конструкцию. Рабочий ток этих блоков питания может превышать 60 А. Каждое устройство питается через шину в задней части шкафа.
Под тремя верхними силовыми фреймами находятся десять вычислительных узлов 1U. На передней панели каждого узла имеется четыре сетевых адаптера InfiniBand (четыре отсека QSFP-DD слева и в центре передней панели), образующие вычислительную сеть. Система также оснащена DPU BlueField-3, которые, как говорят, обеспечивают связь с сетью хранения данных. Помимо нескольких портов управления, есть четыре лотка для дисков E1.S.
Каждый вычислительный узел содержит два процессора Grace Arm, каждый процессор Grace подключен к двум графическим процессорам Blackwell. Потребляемая мощность каждого узла составляет от 5.4 кВт до 5.7 кВт, при этом большая часть тепла рассеивается посредством жидкостного охлаждения с прямым охлаждением кристалла (DTC).
NVSwitches
Под десятью вычислительными узлами находятся девять NVSwitches. Золотые компоненты на панели — это ручки для вставки и извлечения коммутаторов.
Каждый коммутатор NVLink содержит два чипа коммутатора NVLink, которые также используют жидкостное охлаждение.
В нижней части шкафа, под девятью NVSwitch, расположены восемь вычислительных узлов высотой 1U.
В задней части шкафа используется конструкция шины питания blind-mate, а также разъемы для подачи охлаждающей жидкости и соединения NVLink с каждым устройством. Каждому компоненту требуется некоторое пространство для перемещения, чтобы обеспечить надежность соединений blind-mate.
По словам Дженсена Хуанга, охлаждающая жидкость поступает в стойку со скоростью 2 л/с, при этом температура на входе составляет 25°C, а на выходе превышает 20°C.
NVIDIA утверждает, что использование медного (оптоволоконного) NVLink в задней части шкафа может сэкономить около 20 кВт мощности на шкаф. Общая длина всех медных кабелей оценивается в более чем 2 мили (3.2 километра). Это объясняет, почему коммутаторы NVLink расположены в середине шкафа, так как это минимизирует длину кабеля.
Supermicro
Системы Supermicro NVIDIA MGX™
Системы 1U NVIDIA GH200 Grace Hopper™ Superchip
Foxconn
18 марта 2024 года на конференции NVIDIA GTC дочерняя компания Foxconn Ingrasys представила сервер с жидкостным охлаждением NVL72, использующий чип NVIDIA GB200. Этот сервер объединяет 72 графических процессора NVIDIA Blackwell и 36 процессоров NVIDIA Grace.
У Jensen Huang и Foxconn хорошие отношения, с многочисленным сотрудничеством в области серверов и других областей. Последний суперсервер ИИ от Foxconn, DGX GB200, начнет массовое производство во второй половине года. Продукты серии GB200 будут поставляться в стоечном исполнении с предполагаемым объемом заказа до 50,000 200 шкафов. В настоящее время Foxconn имеет три основных новых продукта в серии системных шкафов DGX GB72: DGX NVL32, NVL200 и HGX BXNUMX. Они являются главными победителями этого перехода поколения платформы.
Новое поколение стоечных решений с жидкостным охлаждением для искусственного интеллекта NVIDIA GB200 NVL72 объединяет 36 суперчипов NVIDIA GB200 Grace Blackwell, включающих 72 графических процессора на базе NVIDIA Blackwell и 36 центральных процессоров NVIDIA Grace. Они соединены между собой посредством пятого поколения NVIDIA NVLink, образуя один большой графический процессор.
Технология облачных вычислений Quanta (QCT)
На мероприятии QCT представила свою модель 1U, QuantaGrid D75B-1U. В рамках системной платформы NVIDIA GB200 NVL72 эта модель может вместить 72 устройства в одном шкафу. D75B-1U оснащен двумя чипами GB200 Grace Blackwell Superchips. QCT подчеркнула, что ЦП может получить доступ к 480 ГБ памяти LPDDR5X, а ГП оснащен 144 ГБ памяти HBM3e с высокой пропускной способностью, оба оснащены аксессуарами для жидкостного охлаждения Cold Plate. Что касается хранилища, этот сервер 1U может вместить восемь 15-миллиметровых E1.S PCIe SSD и один M.2 2280 PCIe SSD. Для расширения устройств PCIe D75B-1U может вместить две интерфейсные карты двойной ширины полной высоты полной длины и две интерфейсные карты половинной высоты половинной длины, все с поддержкой PCIe 5.0 x16.
Уивинн
Будучи важным партнером NVIDIA, Wiwynn является одной из первых компаний, которая соответствует стандарту NVIDIA GB200 NVL72. На GTC 2024 Wiwynn продемонстрировала свои новейшие решения для вычислений на базе ИИ. Недавно выпущенный суперчип NVIDIA GB200 Grace Blackwell поддерживает новейшую платформу NVIDIA Quantum-X800 InfiniBand и NVIDIA Spectrum-X800 Ethernet. Это включает в себя новую стоечную серверную стойку с жидкостным охлаждением для ИИ, работающую на системе NVIDIA GB200 NVL72. Wiwynn использует свои сильные стороны в высокоскоростной передаче данных, энергоэффективности, системной интеграции и передовых технологиях охлаждения. Ее цель — удовлетворить новые требования к производительности, масштабируемости и разнообразию в экосистеме центров обработки данных.
Wiwynn также запустила UMS100 (Universal Liquid-Cooling Management System), усовершенствованную систему управления жидкостным охлаждением на уровне стойки, разработанную для удовлетворения растущего спроса на высокую вычислительную мощность и эффективные механизмы охлаждения в эпоху генеративного ИИ (GenAI). Эта инновационная система предлагает ряд функций, включая мониторинг в реальном времени, оптимизацию энергии охлаждения, быстрое обнаружение утечек и локализацию. Она также разработана для плавной интеграции с существующими системами управления центрами обработки данных через интерфейс Redfish. Она поддерживает стандартные отраслевые протоколы и совместима с различными блоками распределения охлаждения (CDU) и боковыми шкафами.
ASUS
На выставке Computex Taipei 2024 компания ASUS представила несколько серверов ИИ. К ним относятся новые серверы NVIDIA Blackwell, а именно серверы B100, B200 и GB200, а также серверы AMD MI300X. Кроме того, есть серверы Intel Xeon 6 и серверы AMD EPYC Turin с TDP ЦП до 500 Вт.
Изюминкой является ASUS ESC AI POD, оснащенный версией NVIDIA GB200 NVL72.
ASUS также продемонстрировала внешний вид одного из узлов. В шасси 1U мы видим шину питания и два узла GB200 с жидкостным охлаждением. Эти узлы оснащены двумя чипами GB200 Grace Blackwell Superchips, оба покрыты охлаждающими пластинами. В середине шасси находится плата распределения питания (PDB), предназначенная для преобразования 48-вольтового постоянного тока в 12-вольтовый постоянный ток для питания графических процессоров Blackwell. Кроме того, этот вычислительный слот включает в себя модуль хранения для твердотельных накопителей форм-фактора E1.S и две карты процессора данных BlueField-3 серии B3240 в форм-факторе двойной ширины, полной высоты и половинной длины.
Для пользователей, ищущих недорогие вычисления Arm и графические процессоры NVIDIA, есть двойная платформа NVIDIA Grace Hopper GH200, известная как ASUS ESC NM2-E1. Она объединяет два блока CPU и GPU Grace Hopper в одну систему.
Inventec
На мероприятии Inventec продемонстрировала шкафной уровень GB200 NVL72 вместе с серверами Artemis 1U и 2U. Эти серверы оснащены двумя GB200 Grace Blackwell Superchips, сетевыми картами ConnectX-7 400Gb/s InfiniBand и процессорами данных BlueField-3 400Gb/s.
- 120 кВт на шкаф
- Силовая шина — 1400 А
- 8*33 кВт полок питания — 1+1 резервный
- Заглушка для жидкостного охлаждения + заглушка для шины + заглушка для связи
- Охлаждающий блок заднего шкафа, известный как «Side Car»
«Side Car» — это шкаф жидкостного охлаждения, разработанный для серверного шкафа, напоминающий коляску мотоцикла и обеспечивающий эффективное решение для охлаждения.
Сопутствующие товары:
- Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC $650.00
- NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $850.00
- NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $750.00
- NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1100.00
- Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1200.00
- Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера $800.00
- Mellanox MMA1T00-HS, совместимый с 200G Infiniband HDR QSFP56 SR4, 850 нм, 100 м, MPO-12, модуль оптического приемопередатчика APC OM3/OM4 FEC PAM4 $200.00
- Совместимость с NVIDIA MFP7E10-N010, 10 волокон, длина 33 м (8 футов), низкие вносимые потери, гнездо-мама Магистральный кабель MPO, полярность B, APC-APC, LSZH, многомодовый OM3 50/125 $47.00
- Совместимый с NVIDIA MCP7Y00-N003-FLT 3 м (10 фута) 800G OSFP с двумя портами до 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $275.00
- NVIDIA MCP7Y70-H002 Совместимость с двумя портами 2G, 7 м (400 фута), от 2x200G OSFP до 4x100G QSFP56, медный кабель прямого подключения с пассивной разводкой $155.00
- NVIDIA MCA4J80-N003-FTF, совместимый с двумя портами 3G, 10 м (800 футов), 2x400G OSFP на 2x400G OSFP, активный медный кабель InfiniBand NDR, плоская верхняя часть на одном конце и ребристая верхняя часть на другом $600.00
- NVIDIA MCP7Y10-N002, совместимый с двухпортовым OSFP 2G InfiniBand NDR длиной 7 м (800 фута) с 2x400G QSFP112 Breakout ЦАП $200.00