Понимание эволюции NvLink и NvSwitch от Nvidia: топология и скорости

2014: Внедрение архитектуры Pascal с Tesla P100

В 2014 году Nvidia выпустила Tesla P100 на базе архитектуры Pascal. Этот графический процессор использовал технологию NVLink первого поколения, которая обеспечивала высокоскоростную связь между 4 или 8 графическими процессорами. Двунаправленная пропускная способность межсоединений NVLink 1.0 была в пять раз больше, чем у PCIe 3.0×16. Вот расчет:

  • PCIe 3.0×16: двунаправленная пропускная способность связи 32 ГБ/с (1 ГБx16x2).
  • NVLink 1.0: двунаправленная пропускная способность межсоединения 160 ГБ/с (20 ГБx4x2).

Из-за отсутствия чипов NvSwitch графические процессоры были соединены между собой по топологии ячеистой сети, где общая пропускная способность от одного графического процессора до четырех напрямую подключенных графических процессоров составляла 160 ГБ/с.

Архитектура Pascal с Tesla P100

2017: Архитектура Volta с V100

В 2017 году Nvidia выпустила архитектуру Volta с графическим процессором V100. NVLink в V100 увеличил однонаправленную пропускную способность на соединение с 20 ГБ/с до 25 ГБ/с и количество соединений с 4 до 6, увеличив общую поддерживаемую пропускную способность GPU NVLink до 300 ГБ/с. Однако система V100 DGX-1, выпущенная в 2017 году, не имела NvSwitch. Топология была похожа на NVLink 1.0 с увеличенным количеством соединений.

Архитектура Volta с V100

2018: Представление системы V100 DGX-2

Для дальнейшего повышения пропускной способности связи между графическими процессорами и общей производительности системы в 100 году компания Nvidia представила систему V2 DGX-2018. Это была первая система, включающая чип NvSwitch, обеспечивающий полную взаимосвязь между 16 графическими процессорами SXM V100 в рамках одной системы DGX-2.

Система V100 DGX-2

NVSwitch имеет 18 портов NVLink, 8 из которых подключаются к GPU, а 8 — к другому чипу NVSwitch на другой базовой плате. Каждая базовая плата содержит шесть NVSwitch для связи с другой базовой платой.

Каждая базовая плата содержит шесть NVSwitch для связи с другой базовой платой.

2020: Архитектура Ampere с A100

В 2020 году Nvidia запустила архитектуру Ampere с графическим процессором A100. Чипы NVLink и NVSwitch были обновлены до версий 3.0 и 2.0 соответственно. Хотя однонаправленная пропускная способность на соединение осталась на уровне 25 ГБ/с, количество соединений увеличилось до 12, что привело к общей двунаправленной пропускной способности межсоединений в 600 ГБ/с. Система DGX A100 оснащена 6 чипами NVSwitch 2.0, причем каждый графический процессор A100 соединен через 12 соединений NVLink с 6 чипами NVSwitch, что обеспечивает два соединения с каждым NVSwitch.

Логическая топология системы GPU выглядит следующим образом:

логическая топология системы GPU

Многие не понимают логической связи между модулем HGX и «головкой сервера». Ниже представлена ​​схема, показывающая, что основная плата графического процессора SXM соединена с материнской платой сервера через каналы PCIe. Чип коммутатора PCIe (PCIeSw) интегрирован в материнскую плату головки сервера. Сигналы сетевой карты и NVMe U.2 PCIe также исходят от PCIeSw.

логическая связь между модулем HGX и головкой сервера

2022: Архитектура бункера с H100

Графический процессор H100 на основе архитектуры Hopper был выпущен в 2022 году с версиями NVLink и NVSwitch 4.0 и 3.0 соответственно. В то время как однонаправленная пропускная способность на соединение осталась неизменной на уровне 25 ГБ/с, количество соединений увеличилось до 18, что привело к общей двунаправленной пропускной способности соединения 900 ГБ/с. Каждый графический процессор соединен с 4 NVSwitch с использованием группировки 5+4+4+5.

Архитектура бункера с H100

Интерфейсы OSFP чипов NVSwitch в системе DGX используются для более крупной сети графических процессоров Nvidia, например, в решении DGX H100 256 SuperPOD.

DGX H100 256 СуперПОД

2024: Blackwell Architecture с B200

В 2024 году Nvidia представила архитектуру Blackwell с графическим процессором B200, включающим версии NVLink и NVSwitch 5.0 и 4.0 соответственно. Однонаправленная пропускная способность на соединение удвоилась до 50 ГБ/с с 18 соединениями, что привело к общей двунаправленной пропускной способности межсоединений в 1.8 ТБ/с. Каждый чип NVSwitch имеет 72 порта NVLink 5.0, а каждый графический процессор использует 9 соединений NVLink с двумя чипами NVSwitch.

Архитектура Blackwell с B200

С выпуском B200 компания Nvidia также представила NVL72 — интегрированную систему графических процессоров, которая использует сетевой коммутатор NVLink для достижения полной взаимосвязанности между 72 графическими процессорами.

Логическая топология соединения 72 графических процессоров с использованием 9 коммутаторов NVLink выглядит следующим образом:

72 графических процессора с использованием 9 коммутаторов NVLink

Каждый графический процессор B200 имеет 18 портов NVLink, что в сумме дает 1,296 подключений NVLink (72×18). Один лоток коммутатора содержит два чипа коммутатора NVLink, каждый из которых обеспечивает 72 интерфейса (всего 144). Таким образом, для полного соединения 9 графических процессоров требуется 72 лотков коммутатора.

Оставьте комментарий

Наверх