Подробный анализ чипа NVIDIA GH200, серверов и кластерной сети

Традиционные серверы OEM GPU: процессор Intel/AMD x86 + графический процессор NVIDIA

До 2024 года как собственные серверы NVIDIA, так и сторонние серверы, оснащенные графическими процессорами NVIDIA, были основаны на машинах с процессорами x86. Графические процессоры подключались к материнской плате через карты PCIe или модули на 8 карт.

типичный узел 8xA100 GPU
Типичная топология оборудования хоста A8 с 100 картами

На этом этапе ЦП и ГП были независимы. Производители серверов могли собирать свои серверы, покупая модули ГП (например, 8*A100). Выбор ЦП Intel или AMD зависел от соображений производительности, стоимости или экономической эффективности.

Серверы OEM GPU нового поколения: NVIDIA CPU + NVIDIA GPU

С появлением чипа NVIDIA GH200 в 2024 году графические процессоры NVIDIA начали включать в себя интегрированные центральные процессоры.

  • Эра настольных компьютеров: ЦП был основным, а ГП (графическая карта) — вторичным компонентом. Чип ЦП мог интегрировать чип ГП, известный как интегрированная графическая карта.
  • Эра центров обработки данных AI: GPU занял главную роль, а CPU стал второстепенным. Чип/карта GPU теперь интегрирует CPU.

В результате уровень интеграции NVIDIA возрос, и они начали предлагать готовые машины или целые стойки.

Процессорный чип: Grace (ARM) разработан на основе архитектуры ARMv9.

Чип графического процессора: Hopper/Blackwell/…

Например, серия Hopper изначально включала модель H100-80GB, за которой последовали следующие модификации:

  • H800: урезанная версия H100.
  • H200: модернизированная версия H100.
  • H20: урезанная версия H200, значительно уступающая H800.

Примеры наименования микросхем

Grace CPU + Hopper 200 (H200) GPU

GH200 на одной плате:

GH200 на одной плате
Рендеринг чипа NVIDIA GH200 (платы): слева: чип центрального процессора Grace; справа: чип графического процессора Hopper.

Процессор Grace + графический процессор Blackwell 200 (B200)

GB200 на одной плате (модуле) с высоким энергопотреблением и встроенным жидкостным охлаждением:

с высоким энергопотреблением и встроенным жидкостным охлаждением
Рендеринг NVIDIA GB200: модуль, включающий 2 процессора Grace + 4 графических процессора B200 со встроенным модулем жидкостного охлаждения.

72 B200 образуют OEM-шкаф NVL72:

72 B200 образуют OEM-шкаф NVL72
Корпус NVIDIA GB200 NVL72

Внутренняя конструкция серверов GH200

Логическая схема чипа GH200

Интеграция CPU, GPU, RAM и VRAM в один чип

Логическая схема одного чипа NVIDIA GH200
Логическая схема одного чипа NVIDIA GH200

Основное оборудование

Как показано на схеме, один суперчип GH200 объединяет следующие основные компоненты:

  • Один процессор NVIDIA Grace
  • один Нвидиа Н200 GPU / ГРАФИЧЕСКИЙ ПРОЦЕССОР
  • До 480 ГБ памяти ЦП
  • 96 ГБ или 144 ГБ видеопамяти графического процессора

Аппаратные соединения чипов

Процессор подключается к материнской плате через четыре линии PCIe Gen5 x16:

  • Каждая линия PCIe Gen5 x16 обеспечивает двунаправленную скорость 128 ГБ/с.
  • Таким образом, общая скорость для четырех полос составляет 512 ГБ/с.

Центральный процессор и графический процессор соединены между собой с помощью технологии NVLink® Chip-2-Chip (NVLink-C2C):

  • 900 ГБ/с, что в семь раз быстрее, чем PCIe Gen5 x16

Внутренние соединения графических процессоров (в пределах одного хоста и между хостами) используют 18x NVLINK4:

  • 900GB / s

NVLink-C2C обеспечивает то, что NVIDIA называет «когерентностью памяти», гарантируя согласованность между памятью и VRAM. Преимущества включают:

  • Объединенная память и VRAM объемом до 624 ГБ, что позволяет пользователям использовать ее без различий, тем самым повышая эффективность работы разработчиков
  • Одновременный и прозрачный доступ к памяти ЦП и ГП как со стороны ЦП, так и со стороны ГП
  • Благодаря большой пропускной способности межсоединений и низкой задержке объем видеопамяти графического процессора может быть превышен, при необходимости задействуя память центрального процессора.

Далее давайте рассмотрим аппаратные компоненты, такие как центральный процессор, память и графический процессор.

ЦП и память

72-ядерный процессор ARMv9

72-ядерный процессор Grace основан на архитектуре ядра Neoverse V2 Armv9.

Память LPDDR480X (DDR с низким энергопотреблением) объемом 5 ГБ

  • Поддерживает до 480 ГБ памяти LPDDR5X
  • Пропускная способность памяти 500 ГБ/с на ЦП

Чтобы понять эту скорость в контексте хранения:

Поддерживает до 480 ГБ памяти LPDDR5X

Сравнение трех типов памяти: DDR против LPDDR против HBM

Большинство серверов (подавляющее большинство) используют память DDR, подключенную к процессору через слоты DIMM на материнской плате. Первое-четвертое поколения LPDDR соответствуют маломощным версиям DDR1-DDR4, обычно используемым в мобильных устройствах.

  • LPDDR5 разработан независимо от DDR5 и даже производился раньше, чем DDR5.
  • Он напрямую припаян к процессору, несъемный и нерасширяемый, что увеличивает стоимость, но обеспечивает более высокую скорость.
  • Похожий тип — GDDR, используемый в графических процессорах, таких как RTX 4090.

GPU и видеопамять

Вычислительная мощность графического процессора H200

Подробная информация о вычислительной мощности графического процессора H200 приведена ниже.

Параметры видеопамяти

Поддерживаются два типа VRAM с возможностью выбора между:

  • 96GB HBM3
  • 144 ГБ HBM3e, обеспечивающий пропускную способность 4.9 ТБ/с, что на 50% выше, чем у H100 SXM.

Этот вариант размещает два чипа GH200 на одной плате, удваивая CPU, GPU, RAM и VRAM, с полной взаимосвязью между двумя чипами. Например, в сервере, который может вместить 8 плат:

  • При использовании чипов GH200: количество ЦП и ГП составляет 8 * {72 ЦП Grace, 1 ГП H200}
  • При использовании варианта GH200 NVL2: количество ЦП и ГП составляет 8 * {144 ЦП Grace, 2 ГП H200}

Технические характеристики продуктов GH200 и GH200 NVL2 (вычислительная мощность)

Продукт GH200 и GH200 NVL2

Представлены спецификации продукта NVIDIA GH200. Верхний раздел включает CPU, память и другие параметры, а параметры GPU начинаются с «FP64».

Серверы и сетевое оборудование GH200

Существуют две спецификации сервера, соответствующие картам PCIe и картам NVLINK.

NVIDIA MGX с GH200: OEM-хост и сетевые возможности

На схеме ниже показан метод построения сети для узла с одной картой:

NVIDIA MGX с GH200
  • Каждый узел содержит только один чип GH200, функционирующий как карта PCIe без NVLINK.
  • Сетевая карта или карта ускорителя каждого узла (DPU BlueField-3 (BF3)) подключается к коммутатору.
  • Прямого соединения между графическими процессорами через узлы нет; связь осуществляется через хост-сеть (графический процессор -> центральный процессор -> сетевой адаптер).
  • Подходит для рабочих нагрузок HPC, а также малых и средних рабочих нагрузок ИИ.

NVIDIA GH200 NVL32: OEM-шкаф на 32 карты

Корпус на 32 платы объединяет 32 чипа GH200 в один логический модуль графического процессора с использованием NVLINK, отсюда и название NVL32.

NVIDIA GH200 NVL32

Модуль NVL32 по сути представляет собой шкаф:

  • Один корпус обеспечивает 19.5 ТБ памяти и видеопамяти.
  • NVLink TLB позволяет любому графическому процессору получать доступ к любой памяти/VRAM внутри корпуса.
Модуль NVL32 по сути представляет собой шкаф

В NVIDIA GH200 NVL32 существует три типа методов доступа к памяти/VRAM, включая расширенную память графического процессора (EGM).

Несколько шкафов можно объединить в сеть, образовав кластер, подходящий для крупномасштабных рабочих нагрузок ИИ.

Оставьте комментарий

Наверх