Серверы NVIDIA AI GPU: PCIe против SXM

26 января 2024

Ricky

Исследователь оптической передачи данных, богатый опыт разработки решений

Технология соединения графических процессоров Nvidia имеет два основных типа слотов памяти: PCIe и SXM. Эти два интерфейса имеют разные функции и производительность.

Интерфейс PCIe — широко используемый общий протокол. Несмотря на то, что он обладает обширными функциями, он имеет относительно низкую скорость передачи данных для соединения с графическим процессором. Тем не менее, карты графического процессора с интерфейсом PCIe по-прежнему могут взаимодействовать с процессором и другими картами графического процессора на сервере через слоты PCIe. Кроме того, они также могут обмениваться данными с устройствами на внешних узлах сервера через сетевые карты. Если пользователи хотят повысить скорость передачи данных карт PCIe GPU, они могут использовать мост NVLink для обеспечения быстрой связи между графическим процессором и процессором. Однако следует отметить, что этот метод обычно поддерживает соединение только между двумя видеокартами. То есть карты PCIe GPU обычно должны располагаться парами, соединенными мостом NVLink, и передавать данные через канал PCIe. Стоит отметить, что последний стандарт PCIe имеет ограничение пропускной способности сети в 128 ГБ/с.

Напротив, интерфейс SXM разработан специально для высокопроизводительных Соединение графического процессора. Он использует специальный протокол, размещенный на печатной плате, что позволяет SXM предлагать более высокую скорость передачи данных и лучшую собственную поддержку NVLink, чем PCIe с точки зрения соединения между картами. Его пропускная способность памяти также превосходит PCIe. Архитектура SXM особенно подходит для подключения графических процессоров к фирменным системам NVIDIA DGX и HGX. В этих системах графические процессоры на базе SXM подключаются через NVSwitch, интегрированный в материнскую плату, без использования PCIe для связи. Такая конструкция позволяет SXM поддерживать до 8 взаимосвязанных графических процессоров, достигая очень высокой пропускной способности. Например, неразрезанные A100 и H100 могут достигать 600 ГБ/с и 900 ГБ/с пропускной способности соответственно, в то время как слегка разрезанная A800 и H800 может достигать 400 ГБ/с пропускной способности.

PCIe-графический процессор к графическому процессору

Пользователям обычно следует взвесить плюсы и минусы графических процессоров на базе PCIe или SXM в соответствии со своими конкретными сценариями приложений и требованиями к производительности.

Содержание

PCIe (PCI Express) Введение

PCIe, сокращение от PCI Express, — это усовершенствованный стандарт компьютерной шины расширения, основная цель которого — повысить пропускную способность данных и скорость связи между устройствами. Поскольку шина PCIe является полнодуплексной, скорость передачи данных зависит от количества ее линий. Каждая полоса состоит из двух пар линий данных (одна для отправки, другая для приема), и каждая пара линий данных содержит две дифференциальные линии. Например, X1 означает одну полосу и четыре линии данных, которые могут передавать 1 бит данных в каждом направлении за такт; в то время как X2 означает две полосы и восемь линий данных, которые могут передавать 2-битные данные за цикл. Аналогично существуют также X12, X16, X32 и другие конфигурации.

С момента выпуска PCIe 1.0 в 2003 году скорость передачи данных постоянно росла. PCIe 1.0 поддерживает скорость передачи 250 МБ/с на канал при общей скорости передачи 2.5 ГТ/с. К 2007 году спецификация PCIe 2.0 удвоила общую скорость передачи данных до 5 ГТ/с, а скорость передачи на канал также увеличилась до 500 МБ/с. К 2022 году спецификация PCIe 6.0 еще больше увеличила общую скорость передачи данных до 64 ГТ/с. В июне того же года альянс PCI-SIG анонсировал спецификацию PCIe 7.0, которая, как ожидается, обеспечит одноканальную (x1) скорость однонаправленной передачи 128 ГТ/с в окончательной версии, которая будет выпущена в 2025 году.

Расчет пропускной способности PCIe

При расчете пропускной способности PCIe (или доступной пропускной способности) необходимо учитывать два фактора: скорость передачи и схему кодирования. Скорость передачи обычно выражается в ГТ/с (гигапереходов в секунду), что описывает атрибут скорости протокола связи физического уровня, а не количество битов, передаваемых в секунду (Гбит/с). Это связано с тем, что скорость передачи включает служебные биты, которые не обеспечивают дополнительную пропускную способность. Например, PCIe 1.x и PCIe 2.x используют схему кодирования 8b/10b, что означает, что 20% исходной полосы пропускания канала используется для служебных данных.

Таким образом, хотя протокол PCIe 2.0 поддерживает скорость передачи 5.0 ГТ/с, из-за использования решения кодирования 8b/10b фактическая эффективная скорость каждой линии составляет 5*8/10=4 Гбит/с, или 500 МБ/с. с. Аналогичным образом протокол PCIe 3.0 поддерживает скорость передачи 8.0 ГТ/с, но после использования схемы кодирования 128b/130b фактическая эффективная скорость каждой линии составляет около 7.877 Гбит/с или 984.6 МБ/с.

Архитектура PCIe состоит из устройств PCIe разных типов, таких как корневой комплекс (RC), коммутатор и конечная точка (EP). Среди них RC — единственный в шинной архитектуре, отвечающий за соединение подсистем процессора и памяти с устройствами ввода-вывода. Функция коммутатора обычно реализуется программным обеспечением, содержащим два или более логических моста PCI-PCI (мост PCI-PCI) для обеспечения совместимости с существующими PCI-устройствами. Эта архитектура обеспечивает надежную поддержку высокопроизводительных вычислений и связи.

NVLink: технология высокоскоростного соединения для ускорения связи графического процессора.

Поскольку вычислительная мощность продолжает расти, карты с несколькими графическими процессорами становятся ключом к повышению производительности. Однако традиционная шина PCIe может стать узким местом в скорости передачи данных и задержке, ограничивая эффективность и производительность параллельных вычислений на графическом процессоре.

Чтобы решить эту проблему, NVIDIA представила технологию GPUDirect P2P, которая позволяет графическим процессорам напрямую обращаться к памяти других графических процессоров через PCI Express, сокращая задержку обмена данными. Но даже в этом случае из-за ограничений протокола шины PCI Express и топологии он по-прежнему не может удовлетворить более высокие требования к пропускной способности. По этой причине NVIDIA запустила технологию высокоскоростного соединения NVLink. NVLink стремится ускорить передачу данных между ЦП и графическим процессором, а также графическим процессором и графическим процессором, обеспечивая более эффективное решение для межсетевого взаимодействия с малой задержкой. С момента своего первого выпуска в 2014 году NVLink постоянно обновлялся, а пропускная способность увеличивалась. От 100 ГБ/с у P160 до 100 ГБ/с у V300, а затем до 100 ГБ/с у A600, пропускная способность NVLink увеличивается, обеспечивая надежную поддержку высокопроизводительных вычислений.

Высокоскоростное соединение NVLink имеет два основных метода реализации: один — через мост, а другой — интеграцию интерфейса NVLink на материнской плате. Оба метода позволяют обеспечить высокоскоростное соединение между графическими процессорами и повысить производительность системы.

NVSwitch: бесшовная высокоскоростная связь между несколькими графическими процессорами

Чтобы решить проблему несбалансированной связи между графическими процессорами, NVIDIA представила чип NVSwitch. NVSwitch — это физический чип (ASIC), похожий на коммутатор, который может подключать несколько графических процессоров на высокой скорости через интерфейс NVLink. Он может создать бесшовный многоузловой кластер графических процессоров с высокой пропускной способностью, позволяющий всем графическим процессорам работать вместе в кластере с возможностью подключения с полной пропускной способностью, тем самым повышая эффективность связи и пропускную способность между несколькими графическими процессорами на сервере.

Комбинация NVLink и NVSwitch позволяет NVIDIA эффективно масштабировать производительность искусственного интеллекта для нескольких графических процессоров, обеспечивая мощную поддержку высокопроизводительных вычислений и приложений искусственного интеллекта. С момента выпуска первого поколения NVSwitch в 2018 году NVSwitch развился до третьего поколения. Третье поколение NVSwitch построено на основе процесса TSMC 4N, и каждый чип имеет 64 порта NVLink 4.0 со скоростью передачи данных между графическими процессорами до 900 ГБ/с. Эта инновационная технология обеспечивает более широкое пространство для разработки будущих приложений высокопроизводительных вычислений и искусственного интеллекта.