2014: Внедрение архитектуры Pascal с Tesla P100
В 2014 году Nvidia выпустила Tesla P100 на базе архитектуры Pascal. Этот графический процессор использовал технологию NVLink первого поколения, которая обеспечивала высокоскоростную связь между 4 или 8 графическими процессорами. Двунаправленная пропускная способность межсоединений NVLink 1.0 была в пять раз больше, чем у PCIe 3.0×16. Вот расчет:
- PCIe 3.0×16: двунаправленная пропускная способность связи 32 ГБ/с (1 ГБx16x2).
- NVLink 1.0: двунаправленная пропускная способность межсоединения 160 ГБ/с (20 ГБx4x2).
Из-за отсутствия чипов NvSwitch графические процессоры были соединены между собой по топологии ячеистой сети, где общая пропускная способность от одного графического процессора до четырех напрямую подключенных графических процессоров составляла 160 ГБ/с.

2017: Архитектура Volta с V100
В 2017 году Nvidia выпустила архитектуру Volta с графическим процессором V100. NVLink в V100 увеличил однонаправленную пропускную способность на соединение с 20 ГБ/с до 25 ГБ/с и количество соединений с 4 до 6, увеличив общую поддерживаемую пропускную способность GPU NVLink до 300 ГБ/с. Однако система V100 DGX-1, выпущенная в 2017 году, не имела NvSwitch. Топология была похожа на NVLink 1.0 с увеличенным количеством соединений.

2018: Представление системы V100 DGX-2
Для дальнейшего повышения пропускной способности связи между графическими процессорами и общей производительности системы в 100 году компания Nvidia представила систему V2 DGX-2018. Это была первая система, включающая чип NvSwitch, обеспечивающий полную взаимосвязь между 16 графическими процессорами SXM V100 в рамках одной системы DGX-2.

NVSwitch имеет 18 портов NVLink, 8 из которых подключаются к GPU, а 8 — к другому чипу NVSwitch на другой базовой плате. Каждая базовая плата содержит шесть NVSwitch для связи с другой базовой платой.

2020: Архитектура Ampere с A100
В 2020 году Nvidia запустила архитектуру Ampere с графическим процессором A100. Чипы NVLink и NVSwitch были обновлены до версий 3.0 и 2.0 соответственно. Хотя однонаправленная пропускная способность на соединение осталась на уровне 25 ГБ/с, количество соединений увеличилось до 12, что привело к общей двунаправленной пропускной способности межсоединений в 600 ГБ/с. Система DGX A100 оснащена 6 чипами NVSwitch 2.0, причем каждый графический процессор A100 соединен через 12 соединений NVLink с 6 чипами NVSwitch, что обеспечивает два соединения с каждым NVSwitch.
Логическая топология системы GPU выглядит следующим образом:

Многие не понимают логической связи между модулем HGX и «головкой сервера». Ниже представлена схема, показывающая, что основная плата графического процессора SXM соединена с материнской платой сервера через каналы PCIe. Чип коммутатора PCIe (PCIeSw) интегрирован в материнскую плату головки сервера. Сигналы сетевой карты и NVMe U.2 PCIe также исходят от PCIeSw.

2022: Архитектура бункера с H100
Графический процессор H100 на основе архитектуры Hopper был выпущен в 2022 году с версиями NVLink и NVSwitch 4.0 и 3.0 соответственно. В то время как однонаправленная пропускная способность на соединение осталась неизменной на уровне 25 ГБ/с, количество соединений увеличилось до 18, что привело к общей двунаправленной пропускной способности соединения 900 ГБ/с. Каждый графический процессор соединен с 4 NVSwitch с использованием группировки 5+4+4+5.

Интерфейсы OSFP чипов NVSwitch в системе DGX используются для более крупной сети графических процессоров Nvidia, например, в решении DGX H100 256 SuperPOD.

2024: Blackwell Architecture с B200
В 2024 году Nvidia представила архитектуру Blackwell с графическим процессором B200, включающим версии NVLink и NVSwitch 5.0 и 4.0 соответственно. Однонаправленная пропускная способность на соединение удвоилась до 50 ГБ/с с 18 соединениями, что привело к общей двунаправленной пропускной способности межсоединений в 1.8 ТБ/с. Каждый чип NVSwitch имеет 72 порта NVLink 5.0, а каждый графический процессор использует 9 соединений NVLink с двумя чипами NVSwitch.

С выпуском B200 компания Nvidia также представила NVL72 — интегрированную систему графических процессоров, которая использует сетевой коммутатор NVLink для достижения полной взаимосвязанности между 72 графическими процессорами.
Логическая топология соединения 72 графических процессоров с использованием 9 коммутаторов NVLink выглядит следующим образом:

Каждый графический процессор B200 имеет 18 портов NVLink, что в сумме дает 1,296 подключений NVLink (72×18). Один лоток коммутатора содержит два чипа коммутатора NVLink, каждый из которых обеспечивает 72 интерфейса (всего 144). Таким образом, для полного соединения 9 графических процессоров требуется 72 лотков коммутатора.
Сопутствующие товары:
-
Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC $650.00
-
NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $850.00
-
NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $750.00
-
NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1100.00
-
Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1200.00
-
Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера $800.00
-
Mellanox MMA1T00-HS, совместимый с 200G Infiniband HDR QSFP56 SR4, 850 нм, 100 м, MPO-12, модуль оптического приемопередатчика APC OM3/OM4 FEC PAM4 $200.00
-
Совместимость с NVIDIA MFP7E10-N010, 10 волокон, длина 33 м (8 футов), низкие вносимые потери, гнездо-мама Магистральный кабель MPO, полярность B, APC-APC, LSZH, многомодовый OM3 50/125 $47.00
-
Совместимый с NVIDIA MCP7Y00-N003-FLT 3 м (10 фута) 800G OSFP с двумя портами до 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $275.00
-
NVIDIA MCP7Y70-H002 Совместимость с двумя портами 2G, 7 м (400 фута), от 2x200G OSFP до 4x100G QSFP56, медный кабель прямого подключения с пассивной разводкой $155.00
-
NVIDIA MCA4J80-N003-FTF, совместимый с двумя портами 3G, 10 м (800 футов), 2x400G OSFP на 2x400G OSFP, активный медный кабель InfiniBand NDR, плоская верхняя часть на одном конце и ребристая верхняя часть на другом $600.00
-
NVIDIA MCP7Y10-N002, совместимый с двухпортовым OSFP 2G InfiniBand NDR длиной 7 м (800 фута) с 2x400G QSFP112 Breakout ЦАП $200.00