Технология соединения графических процессоров Nvidia имеет два основных типа слотов памяти: PCIe и SXM. Эти два интерфейса имеют разные функции и производительность.
Интерфейс PCIe — широко используемый общий протокол. Несмотря на то, что он обладает обширными функциями, он имеет относительно низкую скорость передачи данных для соединения с графическим процессором. Тем не менее, карты графического процессора с интерфейсом PCIe по-прежнему могут взаимодействовать с процессором и другими картами графического процессора на сервере через слоты PCIe. Кроме того, они также могут обмениваться данными с устройствами на внешних узлах сервера через сетевые карты. Если пользователи хотят повысить скорость передачи данных карт PCIe GPU, они могут использовать мост NVLink для обеспечения быстрой связи между графическим процессором и процессором. Однако следует отметить, что этот метод обычно поддерживает соединение только между двумя видеокартами. То есть карты PCIe GPU обычно должны располагаться парами, соединенными мостом NVLink, и передавать данные через канал PCIe. Стоит отметить, что последний стандарт PCIe имеет ограничение пропускной способности сети в 128 ГБ/с.
Напротив, интерфейс SXM разработан специально для высокопроизводительных Соединение графического процессора. Он использует специальный протокол, размещенный на печатной плате, что позволяет SXM предлагать более высокую скорость передачи данных и лучшую собственную поддержку NVLink, чем PCIe с точки зрения соединения между картами. Его пропускная способность памяти также превосходит PCIe. Архитектура SXM особенно подходит для подключения графических процессоров к фирменным системам NVIDIA DGX и HGX. В этих системах графические процессоры на базе SXM подключаются через NVSwitch, интегрированный в материнскую плату, без использования PCIe для связи. Такая конструкция позволяет SXM поддерживать до 8 взаимосвязанных графических процессоров, достигая очень высокой пропускной способности. Например, неразрезанные A100 и H100 могут достигать 600 ГБ/с и 900 ГБ/с пропускной способности соответственно, в то время как слегка разрезанная A800 и H800 может достигать 400 ГБ/с пропускной способности.
Пользователям обычно следует взвесить плюсы и минусы графических процессоров на базе PCIe или SXM в соответствии со своими конкретными сценариями приложений и требованиями к производительности.
PCIe (PCI Express) Введение
PCIe, сокращение от PCI Express, — это усовершенствованный стандарт компьютерной шины расширения, основная цель которого — повысить пропускную способность данных и скорость связи между устройствами. Поскольку шина PCIe является полнодуплексной, скорость передачи данных зависит от количества ее линий. Каждая полоса состоит из двух пар линий данных (одна для отправки, другая для приема), и каждая пара линий данных содержит две дифференциальные линии. Например, X1 означает одну полосу и четыре линии данных, которые могут передавать 1 бит данных в каждом направлении за такт; в то время как X2 означает две полосы и восемь линий данных, которые могут передавать 2-битные данные за цикл. Аналогично существуют также X12, X16, X32 и другие конфигурации.
С момента выпуска PCIe 1.0 в 2003 году скорость передачи данных постоянно росла. PCIe 1.0 поддерживает скорость передачи 250 МБ/с на канал при общей скорости передачи 2.5 ГТ/с. К 2007 году спецификация PCIe 2.0 удвоила общую скорость передачи данных до 5 ГТ/с, а скорость передачи на канал также увеличилась до 500 МБ/с. К 2022 году спецификация PCIe 6.0 еще больше увеличила общую скорость передачи данных до 64 ГТ/с. В июне того же года альянс PCI-SIG анонсировал спецификацию PCIe 7.0, которая, как ожидается, обеспечит одноканальную (x1) скорость однонаправленной передачи 128 ГТ/с в окончательной версии, которая будет выпущена в 2025 году.
Расчет пропускной способности PCIe
При расчете пропускной способности PCIe (или доступной пропускной способности) необходимо учитывать два фактора: скорость передачи и схему кодирования. Скорость передачи обычно выражается в ГТ/с (гигапереходов в секунду), что описывает атрибут скорости протокола связи физического уровня, а не количество битов, передаваемых в секунду (Гбит/с). Это связано с тем, что скорость передачи включает служебные биты, которые не обеспечивают дополнительную пропускную способность. Например, PCIe 1.x и PCIe 2.x используют схему кодирования 8b/10b, что означает, что 20% исходной полосы пропускания канала используется для служебных данных.
Таким образом, хотя протокол PCIe 2.0 поддерживает скорость передачи 5.0 ГТ/с, из-за использования решения кодирования 8b/10b фактическая эффективная скорость каждой линии составляет 5*8/10=4 Гбит/с, или 500 МБ/с. с. Аналогичным образом протокол PCIe 3.0 поддерживает скорость передачи 8.0 ГТ/с, но после использования схемы кодирования 128b/130b фактическая эффективная скорость каждой линии составляет около 7.877 Гбит/с или 984.6 МБ/с.
Архитектура PCIe состоит из устройств PCIe разных типов, таких как корневой комплекс (RC), коммутатор и конечная точка (EP). Среди них RC — единственный в шинной архитектуре, отвечающий за соединение подсистем процессора и памяти с устройствами ввода-вывода. Функция коммутатора обычно реализуется программным обеспечением, содержащим два или более логических моста PCI-PCI (мост PCI-PCI) для обеспечения совместимости с существующими PCI-устройствами. Эта архитектура обеспечивает надежную поддержку высокопроизводительных вычислений и связи.
NVLink: технология высокоскоростного соединения для ускорения связи графического процессора.
Поскольку вычислительная мощность продолжает расти, карты с несколькими графическими процессорами становятся ключом к повышению производительности. Однако традиционная шина PCIe может стать узким местом в скорости передачи данных и задержке, ограничивая эффективность и производительность параллельных вычислений на графическом процессоре.
Чтобы решить эту проблему, NVIDIA представила технологию GPUDirect P2P, которая позволяет графическим процессорам напрямую обращаться к памяти других графических процессоров через PCI Express, сокращая задержку обмена данными. Но даже в этом случае из-за ограничений протокола шины PCI Express и топологии он по-прежнему не может удовлетворить более высокие требования к пропускной способности. По этой причине NVIDIA запустила технологию высокоскоростного соединения NVLink. NVLink стремится ускорить передачу данных между ЦП и графическим процессором, а также графическим процессором и графическим процессором, обеспечивая более эффективное решение для межсетевого взаимодействия с малой задержкой. С момента своего первого выпуска в 2014 году NVLink постоянно обновлялся, а пропускная способность увеличивалась. От 100 ГБ/с у P160 до 100 ГБ/с у V300, а затем до 100 ГБ/с у A600, пропускная способность NVLink увеличивается, обеспечивая надежную поддержку высокопроизводительных вычислений.
Высокоскоростное соединение NVLink имеет два основных метода реализации: один — через мост, а другой — интеграцию интерфейса NVLink на материнской плате. Оба метода позволяют обеспечить высокоскоростное соединение между графическими процессорами и повысить производительность системы.
NVSwitch: бесшовная высокоскоростная связь между несколькими графическими процессорами
Чтобы решить проблему несбалансированной связи между графическими процессорами, NVIDIA представила чип NVSwitch. NVSwitch — это физический чип (ASIC), похожий на коммутатор, который может подключать несколько графических процессоров на высокой скорости через интерфейс NVLink. Он может создать бесшовный многоузловой кластер графических процессоров с высокой пропускной способностью, позволяющий всем графическим процессорам работать вместе в кластере с возможностью подключения с полной пропускной способностью, тем самым повышая эффективность связи и пропускную способность между несколькими графическими процессорами на сервере.
Комбинация NVLink и NVSwitch позволяет NVIDIA эффективно масштабировать производительность искусственного интеллекта для нескольких графических процессоров, обеспечивая мощную поддержку высокопроизводительных вычислений и приложений искусственного интеллекта. С момента выпуска первого поколения NVSwitch в 2018 году NVSwitch развился до третьего поколения. Третье поколение NVSwitch построено на основе процесса TSMC 4N, и каждый чип имеет 64 порта NVLink 4.0 со скоростью передачи данных между графическими процессорами до 900 ГБ/с. Эта инновационная технология обеспечивает более широкое пространство для разработки будущих приложений высокопроизводительных вычислений и искусственного интеллекта.
Сопутствующие товары:
- Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC $650.00
- NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $850.00
- NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $750.00
- NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1100.00
- Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1200.00
- Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера $800.00
- Mellanox MMA1T00-HS, совместимый с 200G Infiniband HDR QSFP56 SR4, 850 нм, 100 м, MPO-12, модуль оптического приемопередатчика APC OM3/OM4 FEC PAM4 $200.00
- Совместимость с NVIDIA MFP7E10-N010, 10 волокон, длина 33 м (8 футов), низкие вносимые потери, гнездо-мама Магистральный кабель MPO, полярность B, APC-APC, LSZH, многомодовый OM3 50/125 $47.00
- Совместимый с NVIDIA MCP7Y00-N003-FLT 3 м (10 фута) 800G OSFP с двумя портами до 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $275.00
- NVIDIA MCP7Y70-H002 Совместимость с двумя портами 2G, 7 м (400 фута), от 2x200G OSFP до 4x100G QSFP56, медный кабель прямого подключения с пассивной разводкой $155.00
- NVIDIA MCA4J80-N003-FTF, совместимый с двумя портами 3G, 10 м (800 футов), 2x400G OSFP на 2x400G OSFP, активный медный кабель InfiniBand NDR, плоская верхняя часть на одном конце и ребристая верхняя часть на другом $600.00
- NVIDIA MCP7Y10-N002, совместимый с двухпортовым OSFP 2G InfiniBand NDR длиной 7 м (800 фута) с 2x400G QSFP112 Breakout ЦАП $200.00