Традиционные серверы OEM GPU: процессор Intel/AMD x86 + графический процессор NVIDIA
До 2024 года как собственные серверы NVIDIA, так и сторонние серверы, оснащенные графическими процессорами NVIDIA, были основаны на машинах с процессорами x86. Графические процессоры подключались к материнской плате через карты PCIe или модули на 8 карт.
На этом этапе ЦП и ГП были независимы. Производители серверов могли собирать свои серверы, покупая модули ГП (например, 8*A100). Выбор ЦП Intel или AMD зависел от соображений производительности, стоимости или экономической эффективности.
Серверы OEM GPU нового поколения: NVIDIA CPU + NVIDIA GPU
С появлением чипа NVIDIA GH200 в 2024 году графические процессоры NVIDIA начали включать в себя интегрированные центральные процессоры.
- Эра настольных компьютеров: ЦП был основным, а ГП (графическая карта) — вторичным компонентом. Чип ЦП мог интегрировать чип ГП, известный как интегрированная графическая карта.
- Эра центров обработки данных AI: GPU занял главную роль, а CPU стал второстепенным. Чип/карта GPU теперь интегрирует CPU.
В результате уровень интеграции NVIDIA возрос, и они начали предлагать готовые машины или целые стойки.
Процессорный чип: Grace (ARM) разработан на основе архитектуры ARMv9.
Чип графического процессора: Hopper/Blackwell/…
Например, серия Hopper изначально включала модель H100-80GB, за которой последовали следующие модификации:
- H800: урезанная версия H100.
- H200: модернизированная версия H100.
- H20: урезанная версия H200, значительно уступающая H800.
Примеры наименования микросхем
Grace CPU + Hopper 200 (H200) GPU
GH200 на одной плате:
Процессор Grace + графический процессор Blackwell 200 (B200)
GB200 на одной плате (модуле) с высоким энергопотреблением и встроенным жидкостным охлаждением:
72 B200 образуют OEM-шкаф NVL72:
Внутренняя конструкция серверов GH200
Логическая схема чипа GH200
Интеграция CPU, GPU, RAM и VRAM в один чип
Основное оборудование
Как показано на схеме, один суперчип GH200 объединяет следующие основные компоненты:
- Один процессор NVIDIA Grace
- один Нвидиа Н200 GPU / ГРАФИЧЕСКИЙ ПРОЦЕССОР
- До 480 ГБ памяти ЦП
- 96 ГБ или 144 ГБ видеопамяти графического процессора
Аппаратные соединения чипов
Процессор подключается к материнской плате через четыре линии PCIe Gen5 x16:
- Каждая линия PCIe Gen5 x16 обеспечивает двунаправленную скорость 128 ГБ/с.
- Таким образом, общая скорость для четырех полос составляет 512 ГБ/с.
Центральный процессор и графический процессор соединены между собой с помощью технологии NVLink® Chip-2-Chip (NVLink-C2C):
- 900 ГБ/с, что в семь раз быстрее, чем PCIe Gen5 x16
Внутренние соединения графических процессоров (в пределах одного хоста и между хостами) используют 18x NVLINK4:
- 900GB / s
NVLink-C2C обеспечивает то, что NVIDIA называет «когерентностью памяти», гарантируя согласованность между памятью и VRAM. Преимущества включают:
- Объединенная память и VRAM объемом до 624 ГБ, что позволяет пользователям использовать ее без различий, тем самым повышая эффективность работы разработчиков
- Одновременный и прозрачный доступ к памяти ЦП и ГП как со стороны ЦП, так и со стороны ГП
- Благодаря большой пропускной способности межсоединений и низкой задержке объем видеопамяти графического процессора может быть превышен, при необходимости задействуя память центрального процессора.
Далее давайте рассмотрим аппаратные компоненты, такие как центральный процессор, память и графический процессор.
ЦП и память
72-ядерный процессор ARMv9
72-ядерный процессор Grace основан на архитектуре ядра Neoverse V2 Armv9.
Память LPDDR480X (DDR с низким энергопотреблением) объемом 5 ГБ
- Поддерживает до 480 ГБ памяти LPDDR5X
- Пропускная способность памяти 500 ГБ/с на ЦП
Чтобы понять эту скорость в контексте хранения:
Сравнение трех типов памяти: DDR против LPDDR против HBM
Большинство серверов (подавляющее большинство) используют память DDR, подключенную к процессору через слоты DIMM на материнской плате. Первое-четвертое поколения LPDDR соответствуют маломощным версиям DDR1-DDR4, обычно используемым в мобильных устройствах.
- LPDDR5 разработан независимо от DDR5 и даже производился раньше, чем DDR5.
- Он напрямую припаян к процессору, несъемный и нерасширяемый, что увеличивает стоимость, но обеспечивает более высокую скорость.
- Похожий тип — GDDR, используемый в графических процессорах, таких как RTX 4090.
GPU и видеопамять
Вычислительная мощность графического процессора H200
Подробная информация о вычислительной мощности графического процессора H200 приведена ниже.
Параметры видеопамяти
Поддерживаются два типа VRAM с возможностью выбора между:
- 96GB HBM3
- 144 ГБ HBM3e, обеспечивающий пропускную способность 4.9 ТБ/с, что на 50% выше, чем у H100 SXM.
Вариант: GH200 NVL2 с полным подключением NVLINK
Этот вариант размещает два чипа GH200 на одной плате, удваивая CPU, GPU, RAM и VRAM, с полной взаимосвязью между двумя чипами. Например, в сервере, который может вместить 8 плат:
- При использовании чипов GH200: количество ЦП и ГП составляет 8 * {72 ЦП Grace, 1 ГП H200}
- При использовании варианта GH200 NVL2: количество ЦП и ГП составляет 8 * {144 ЦП Grace, 2 ГП H200}
Технические характеристики продуктов GH200 и GH200 NVL2 (вычислительная мощность)
Представлены спецификации продукта NVIDIA GH200. Верхний раздел включает CPU, память и другие параметры, а параметры GPU начинаются с «FP64».
Серверы и сетевое оборудование GH200
Существуют две спецификации сервера, соответствующие картам PCIe и картам NVLINK.
NVIDIA MGX с GH200: OEM-хост и сетевые возможности
На схеме ниже показан метод построения сети для узла с одной картой:
- Каждый узел содержит только один чип GH200, функционирующий как карта PCIe без NVLINK.
- Сетевая карта или карта ускорителя каждого узла (DPU BlueField-3 (BF3)) подключается к коммутатору.
- Прямого соединения между графическими процессорами через узлы нет; связь осуществляется через хост-сеть (графический процессор -> центральный процессор -> сетевой адаптер).
- Подходит для рабочих нагрузок HPC, а также малых и средних рабочих нагрузок ИИ.
NVIDIA GH200 NVL32: OEM-шкаф на 32 карты
Корпус на 32 платы объединяет 32 чипа GH200 в один логический модуль графического процессора с использованием NVLINK, отсюда и название NVL32.
Модуль NVL32 по сути представляет собой шкаф:
- Один корпус обеспечивает 19.5 ТБ памяти и видеопамяти.
- NVLink TLB позволяет любому графическому процессору получать доступ к любой памяти/VRAM внутри корпуса.
В NVIDIA GH200 NVL32 существует три типа методов доступа к памяти/VRAM, включая расширенную память графического процессора (EGM).
Несколько шкафов можно объединить в сеть, образовав кластер, подходящий для крупномасштабных рабочих нагрузок ИИ.
Сопутствующие товары:
- Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC $650.00
- NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $850.00
- NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $750.00
- NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1100.00
- Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1200.00
- Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера $800.00
- Mellanox MMA1T00-HS, совместимый с 200G Infiniband HDR QSFP56 SR4, 850 нм, 100 м, MPO-12, модуль оптического приемопередатчика APC OM3/OM4 FEC PAM4 $200.00
- Совместимость с NVIDIA MFP7E10-N010, 10 волокон, длина 33 м (8 футов), низкие вносимые потери, гнездо-мама Магистральный кабель MPO, полярность B, APC-APC, LSZH, многомодовый OM3 50/125 $47.00
- Совместимый с NVIDIA MCP7Y00-N003-FLT 3 м (10 фута) 800G OSFP с двумя портами до 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $275.00
- NVIDIA MCP7Y70-H002 Совместимость с двумя портами 2G, 7 м (400 фута), от 2x200G OSFP до 4x100G QSFP56, медный кабель прямого подключения с пассивной разводкой $155.00
- NVIDIA MCA4J80-N003-FTF, совместимый с двумя портами 3G, 10 м (800 футов), 2x400G OSFP на 2x400G OSFP, активный медный кабель InfiniBand NDR, плоская верхняя часть на одном конце и ребристая верхняя часть на другом $600.00
- NVIDIA MCP7Y10-N002, совместимый с двухпортовым OSFP 2G InfiniBand NDR длиной 7 м (800 фута) с 2x400G QSFP112 Breakout ЦАП $200.00