23 мая успешно прошла четвертая сессия Китайского форума по развитию высокого качества 2024 года, организованная совместно CIOE (Китайская международная выставка оптоэлектроники) и коммуникационной сетью C114, на тему «Эра искусственного интеллекта: новые тенденции в оптическом межсоединении центров обработки данных». Технологии". Архитектор оптических межсоединений JD Чэнь Ченг выступил на встрече с основным докладом на тему «Оптическое межсоединение в высокопроизводительных вычислительных сетях».
Компания JD рано начала заниматься разработкой высокопроизводительных вычислительных сетей и продолжает вкладывать значительные средства в несколько поколений интеллектуальных вычислительных топологий. Сценарии применения включают в себя алгоритмы рекомендаций, интеллектуальное обслуживание клиентов, продажу и аренду ИИ, цифровую прямую трансляцию с участием людей и многое другое.
Топология интеллектуальной вычислительной сети обычно делится на две независимые сети: сеть доступа/хранения, которая в основном реализует взаимосвязь между процессорами; Вторая — вычислительная сеть, которая в основном осуществляет параллельную координацию данных узла GPU. В целом, требования интеллектуальных вычислительных сетей к оптическому соединению в основном сосредоточены в трех аспектах, а именно: большая пропускная способность, низкая стоимость и низкая задержка.
Связь между оптическими трансиверами и большой пропускной способностью
Что касается пропускной способности канала передачи данных, первое, чего необходимо добиться, — это параллельная многоканальная связь между графическими процессорами. При передаче данных следует обращать внимание на пропускную способность канала. При внутреннем соединении вычислительных узлов обычно может использоваться метод C2C Full mesh, а скорость соединения может достигать сотен ГБ/с.
Если вы хотите обеспечить связь между различными экспортами графического процессора, вам необходимо подключить оптический приемопередатчик к сетевой карте через PCle, а затем обеспечить межпортовое соединение через оптический приемопередатчик и вычислительные сети после последовательно-параллельного преобразования. Поэтому многие производители в настоящее время выступают за использование оптического ввода/вывода (OIO), чтобы преодолеть узкое место высокоскоростного соединения, что также является тенденцией развития в настоящее время.
С точки зрения развития сетевого оборудования/полосы пропускания оптических приемопередатчиков, в нынешней интеллектуальной вычислительной сети в основном используются коммутаторы Serdes и оптические приемопередатчики 50G, а основным типом оптического приемопередатчика является 200G/400G. Когда емкость одного узла достигнет 51.2Т, будут выбраны разные типы топологии исходя из требований к масштабируемости сети. Некоторые североамериканские производители выберут корпус OSFP 64x800G, в то время как отечественные производители будут использовать корпус QSFP 128 400x112G, используя универсальные промышленные цепочки из двух.

Эволюция пропускной способности сетевого оборудования/оптического трансивера
Если в будущем однокристальная коммутационная способность достигнет 102.4 Тл, подключаемый оптический трансивер по-прежнему сможет поддерживать приложения оптического соединения высокой плотности и высокой емкости, и можно выбрать OSFP 64 × 1.6 Тл и QSFP224-DD. CPO также является одним из популярных решений. Он продолжает решать проблемы надежности, а также проблемы ремонтопригодности во время строительства и развертывания.
Как снизить стоимость оптического соединения?
В вопросе снижения стоимости оптического соединения технология фотоники на основе кремния является одним из потенциальных решений по снижению затрат. Кремниевая фотоника не является совершенно новой технологией, но это относительно новый продукт с точки зрения приложений центров обработки данных. Текущая цепочка поставок модулей 112G на полосу сосредоточена у небольшого числа производителей оптических устройств, поэтому кремниевые фотонные модули могут быть задействованы для решения проблемы нехватки поставок.
В частности, кремниевые оптические трансиверы могут удовлетворить потребности всех сценариев применения центров обработки данных в радиусе 2 км, поэтому JD также проводит соответствующую сертификацию и другие работы. Считается, что они действительно могут быть развернуты в существующей сети в ближайшем будущем.
Линейные оптические трансиверы с прямым приводом LPO/LRO в настоящее время также являются популярной тенденцией применения. В эпоху 112G на полосу, с помощью мощных управляющих возможностей ASIC, оптические приемопередатчики можно упростить, то есть часть DSP или CDR можно удалить, тем самым уменьшив сложность оптического приемопередатчика для достижения цели снижения затрат. .
Однако он также сталкивается с некоторыми проблемами, такими как проблемы совместимости и взаимодействия. Необходимо учитывать поддержку чипов ASIC, взаимосвязь между разными производителями, взаимосвязь новых и старых модулей и так далее.
Необходимо также рассмотреть вопрос эволюционной устойчивости. Например, 112G уже может поддерживать LPO, но если он разовьется до 224G, необходимо рассмотреть возможность поддержки LPO.
Проблема низкой задержки интеллектуальной вычислительной сети
Что касается низкой задержки, если мы хотим добиться общих гарантий скоординированных вычислений, проблема задержки графического процессора между различными вычислительными узлами неизбежно значительно снизит эффективность работы. Итак, какие факторы обычно вызывают задержку?
Во-первых, сеть графических процессоров изначально была основана на протоколе InfiniBand (IB), который обходил центральный процессор при передаче данных, обеспечивая передачу данных между кэшами графического процессора между различными вычислительными узлами, что значительно сокращало задержки связи на основе протокола.

Задержка связи B2B
Традиционный протокол на основе Ethernet требует участия ЦП во всем процессе связи, поэтому задержка будет больше. Более компромиссное решение, а именно решение RDMA, используется в интеллектуальных вычислительных сетях. Ядро RDMA можно инкапсулировать с помощью инкапсуляции протокола Ethernet, тем самым совместно используя возможности Ethernet для уменьшения задержки.
Второе — задержка соединения. Связь между графическими процессорами должна проходить через архитектуру Leaf-Spine и выполнять преобразование оптического сигнала для обеспечения взаимного соединения данных, поэтому во время процесса в различных каналах неизбежно возникнут различные задержки.
Например, в задержке модели принятия решений элементом, который можно оптимизировать, является задержка, вызванная блоком восстановления сигнала в оптическом приемопередатчике. В задержке генеративной модели задержка в основном вызвана временем передачи данных, тогда как задержка, вызванная физическим каналом связи, составляет лишь очень небольшую часть. Таким образом, в настоящее время системная задержка будет более чувствительна к использованию полосы пропускания, и различные направления задержки должны быть оптимизированы в соответствии с различными моделями.
Наконец, Чэнь Чэн пришел к выводу, что по сравнению с традиционными сетями передачи данных пропускная способность интеллектуальных вычислительных сетей будет расти быстрее, а недорогие межсетевые соединения зависят от поддержки новых технологий, таких как кремниевая фотоника, LPO/LRO и т. д. Кроме того, различные модели имеют разные требования к задержке, и направления оптимизации будут разными.
Сопутствующие товары:
-
Совместимость с NVIDIA MMS1Z00-NS400 400G NDR QSFP112 DR4 PAM4 1310 нм 500 м MPO-12 с модулем оптического приемопередатчика FEC $800.00
-
Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера $800.00
-
NVIDIA MMA1Z00-NS400 совместимый модуль оптического приемопередатчика 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC $650.00
-
Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC $650.00
-
Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1200.00
-
NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $850.00
-
NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1100.00
-
NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $750.00
-
Совместимый с NVIDIA MCP4Y10-N002-FLT двухпортовый ЦАП InfiniBand NDR с двумя портами 2G длиной 7 м (800 футов) от 2x400G OSFP до 2x400G OSFP Пассивный ЦАП InfiniBand NDR, плоская вершина на одном конце и плоская вершина на другом $300.00
-
NVIDIA MCA4J80-N003-FLT, совместимый с двумя портами 3G длиной 10 м (800 футов) от 2x400G OSFP до 2x400G OSFP Активный медный кабель InfiniBand NDR, плоская верхняя часть на одном конце и плоская верхняя часть на другом $600.00