Понимание экосистемы продуктов NVIDIA и соглашений об именовании

Вычислительные чипы — V100, A100, H100, B200 и т. д.

Эти термины являются одними из наиболее часто встречающихся в обсуждениях искусственного интеллекта. Они относятся к картам вычислений ИИ, в частности к моделям GPU.

Модели GPU
Видеокарты (6 моделей)

NVIDIA выпускает новую архитектуру GPU каждые несколько лет, называя каждую в честь известного ученого. Карты на основе определенной архитектуры обычно начинаются с первой буквы названия архитектуры, за исключением игровых GPU. Например:

  • V100 основан на архитектуре Volta (названной в честь Алессандро Вольта).
  • A100 основан на архитектуре Ampere (названной в честь Андре-Мари Ампера).
  • H100/H200 происходит от Hopper (назван в честь Грейс Хоппер).
  • B100/B200 поставляются из Блэквелла (названы в честь Дэвида Блэквелла).
NVIDIA выпускает новую архитектуру графических процессоров каждые несколько лет

Модель, заканчивающаяся на «200», обычно является улучшенной версией своей предшественницы «100». Например, H200 — это улучшенная версия H100, включающая такие улучшения, как память HBM3e.

L40 и L40s. Эти две модели немного отличаются по названию. Они основаны на архитектуре Ады Лавлейс (в честь первой женщины-программиста). L40s — это улучшенная версия L40. Обе модели предназначены для рынков центров обработки данных, с упором на экономическую эффективность и производительность.

H20 и экспортные ограничения H20 — это модифицированная версия графических процессоров NVIDIA, созданная в ответ на экспортные ограничения США. Аналогично, отчеты предполагают, что B200 может иметь ограниченный вариант под названием B20.

Будущие архитектуры Платформа искусственного интеллекта следующего поколения NVIDIA Rubin должна выйти в 2026 году. Изначально многие ожидали, что графические процессоры будут маркироваться как R100/R200, но дорожная карта NVIDIA вместо этого предполагает серию X100, что оставляет место для спекуляций. К 2028 году компания планирует выпустить следующую платформу, Feynman.

Суперчипы — GH200, GB200 и т. д.

Хотя графические процессоры составляют основу вычислительной мощности NVIDIA, компания также разрабатывает дополнительные решения за пределами графических процессоров.

Ранние партнерства и разработка ЦП Изначально NVIDIA сотрудничала с процессорами IBM POWER. Однако из-за проблем с производительностью компания начала разрабатывать собственные ЦП, такие как Grace CPU (на базе ARM), а также разрабатывать Vera CPU.

Используя технологию NVLink, NVIDIA объединяет графические процессоры и центральные процессоры для создания платформ Superchip. Примеры включают:

  • GH200 (процессор Grace + графический процессор Hopper)
  • GB200 (процессор Grace + два графических процессора Blackwell B200)
  • GB300 (Блэквелл Ультра)

Модель GB200 особенно мощная: ее производительность примерно в семь раз выше, чем у H100.

GB200

Суперкомпьютерные платформы — DGX, EGX, IGX и т. д.

На более высоком вычислительном уровне NVIDIA разработала суперкомпьютерные платформы на основе этих архитектур чипов, включая DGX, EGX, IGX, HGX и MGX.

Суперкомпьютерные платформы

Серия DGX хорошо известна, поскольку Дженсен Хуанг подарил первое поколение DGX-1 компании OpenAI.

первое поколение DGX-1

Сегодня современные системы DGX, как правило, отличаются фирменным золотым дизайном и премиальной ценой.

Для настольных приложений NVIDIA предлагает DGX Spark и DGX Station, функционирующие как машины класса рабочих станций.

DGX Spark и станция DGX
DGX Spark и станция DGX

Внутриузловое подключение — масштабирование (суперузлы) — DGX GB200 NVL72

На уровне связи NVIDIA разработала NVLink — технологию, предназначенную для соединения графических процессоров, эффективно заменяющую PCIe. Она также соединяет центральные процессоры и графические процессоры через NVLink.

NVLink

Для многоузловых установок прямые соединения NVLink становятся непрактичными, требуя чипов NVLink Switch, также известных как NVSwitch. Со временем эти чипы превратились в автономные устройства.

НВСвитч

NVLink позволяет подключать многочисленные графические процессоры в единый логический узел — сверхмасштабную вычислительную платформу. Часто упоминаемая установка — DGX GB200 NVL72, использующая NVLink5 с:

  • 18 вычислительных лотков (каждый содержит два чипа GB200 Superchip)
  • 9 лотков сетевых коммутаторов NVLink

В каждом вычислительном лотке размещено: 2 чипа GB200 Superchips (всего 36 процессоров Grace и 72 графических процессора B200 во всей системе).

DGX GB200 NVL72

Кроме того, восемь блоков DGX GB200 NVL72 можно объединить для создания узла SuperPod с 576 графическими процессорами.

Эта структурированная экосистема продуктов определяет позицию NVIDIA в сфере искусственного интеллекта и высокопроизводительных вычислений.

Узел SuperPod

Внешнее взаимодействие узлов: горизонтальное масштабирование (IB и Ethernet)

В пределах одного узла постоянное добавление графических процессоров называется Scale-Up (вертикальное расширение). Однако, как только узел достигает определенного размера, дальнейшее расширение становится затруднительным. В этот момент становится необходимым увеличение количества узлов и их соединение — это известно как Scale-Out (горизонтальное расширение).

Внешнее взаимодействие узлов

NVIDIA предоставляет решения для Scale-Out, в первую очередь с помощью технологии InfiniBand (IB). Первоначально разработанная Mellanox, InfiniBand стала запатентованной технологией NVIDIA после того, как NVIDIA приобрела Mellanox в 2019 году. InfiniBand — это технический термин, а не название продукта; продуктовая платформа NVIDIA на основе InfiniBand — NVIDIA Quantum.

Например, в марте 2024 года NVIDIA представила платформу сетевого коммутатора Quantum-X800, которая достигает сквозной пропускной способности 800 Гбит/с. Эта платформа включает в себя оборудование, такое как коммутатор Quantum Q3400 и сетевые карты ConnectX-8 SuperNIC. Эти компоненты относятся к более широкой серии — Quantum-X800 следует за своим предшественником Quantum-2, в то время как ConnectX-8 предшествовали ConnectX-6 и ConnectX-7.

платформа nvidia blackwell

Высокоскоростная сетевая карта ConnectX также создана Mellanox. InfiniBand — одно из двух основных решений Scale-Out; другое — Ethernet. NVIDIA также разработала продукты в этой области, в частности платформу Spectrum-X800. Линейка Spectrum-X800 включает коммутаторы Spectrum SN5600 и сетевые карты BlueField-3 SuperNIC с аналогично высокой пропускной способностью 800 Гбит/с.

Спектр-Х800

BlueField привлекла значительное внимание как блок обработки данных (DPU). NVIDIA объединила технологию сетевых карт Mellanox ConnectX со своими собственными инновациями, официально выпустив BlueField-2 DPU и BlueField-2X DPU в 2020 году. С тех пор технология эволюционировала в BlueField-3.

Кроме того, NVIDIA недавно представила интегрированные сетевые коммутаторы CPO (Co-Packaged Optics), включая Spectrum-X Photonics и Quantum-X Photonics.

системы коммутаторов nvidia photonics

NVIDIA предлагает дополнительные сетевые аксессуары, включая различные сетевые карты, разъемы и кабели, но подробное обсуждение каждого из них выходит за рамки данной статьи.

Недавно Дженсен Хуанг намекнул, что предстоящий релиз платформы Rubin будет включать NVLink 6, ConnectX-9 SuperNIC и Quantum (Spectrum)-X1600 — чего стоит ожидать.

Фреймворк разработки: CUDA

После обсуждения вычислительных аппаратных платформ и сетевых решений NVIDIA пришло время рассмотреть CUDA — важнейший программный компонент.

Хотя NVIDIA преуспевает в области аппаратного обеспечения и сетей, ее платформа CUDA широко рассматривается как ее основное конкурентное преимущество. CUDA (Compute Unified Device Architecture) — это параллельная вычислительная платформа и модель программирования, представленная NVIDIA в 2006 году. Она позволяет разработчикам писать код непосредственно для графических процессоров, что значительно ускоряет вычислительную производительность.

Сегодня CUDA служит операционной системой для интеллектуальных вычислений, объединяя модель программирования, компилятор, API, библиотеки и инструменты, помогая пользователям максимально использовать возможности оборудования NVIDIA.

Помимо того, что CUDA является инструментом, она способствует развитию мощной экосистемы разработки ИИ, функционируя как центральная нервная система всей бизнес-структуры NVIDIA. Многие проекты разработки ИИ в значительной степени зависят от оборудования NVIDIA и CUDA, и хотя переключение оборудования относительно просто, миграция экосистемы в целом представляет собой гораздо более сложную задачу.

Архитектура вычислительного унифицированного устройства

Оставьте комментарий

Наверх