Серверы искусственного интеллекта: технология чипов для межсетевого взаимодействия интерфейсов

По данным TrendForce, поставки ИИ-серверов составили около 130,000 1 единиц, что составляет около 2023% мировых поставок серверов. Заглядывая в будущее до 2023 года, Microsoft, Meta, Baidu и ByteDance последовательно запускают продукты и услуги на основе генеративного искусственного интеллекта и активно увеличивают заказы. Предполагается, что ежегодные темпы роста поставок ИИ-серверов в 15.4 году достигнут 12.2%, а с учетом будущего спроса ChatGPT на ИИ-серверы ожидается, что совокупный годовой темп роста ИИ-серверов составит 2023% с 2027 по XNUMX год. .

DGX H100 был выпущен в 2022 году и является последней версией системы NVIDIA DGX, а также основой NVIDIA DGX SuperPOD. Серверы DXG оснащены 8 графическими процессорами H100 и 640 миллиардами транзисторов и предлагают в 6 раз более высокую производительность ИИ, чем предыдущее поколение, с новой точностью FP8, обеспечивая пропускную способность 900 ГБ/с.

Схема архитектуры внутреннего соединения чипа сервера NVIDIA DGX H100

Источник: NVIDIA

Внутри сервера DGX H100 синие блоки представляют собой IP-сетевые карты, которые могут действовать как сетевые карты, а также играть роль расширения PCIe Switch, становясь мостом между ЦП и графическим процессором (H100). Внутри он использует стандарт PCle 5.0. Кроме того, CX7 состоит из 2 карт в виде чипов сетевых карт для подключения к серверу, и каждая карта состоит из 4 чипов CX7 и выводит 2 порта оптического модуля 800G OSFP.

Соединение между графическими процессорами (H100) в основном обеспечивается микросхемами NV Switch. Каждый графический процессор в DGXH100 расширяет 18 каналов NVLink наружу с двунаправленной пропускной способностью 50 ГБ/с на канал, что в сумме составляет 18*50 ГБ/с = 900 ГБ/с. Двунаправленная пропускная способность делится на 4 встроенных NV-переключателя, поэтому каждый NV-переключатель соответствует 4-5 оптических модулей OSFP (всего 18). Каждый Оптический модуль OSFP использует 8 оптических каналов со скоростью передачи 100 Гбит/с на канал, поэтому общая скорость достигает 800Gbps, что обеспечивает высокоскоростную передачу данных.

Соединение таких компонентов, как процессор, графический процессор: переключатель PCIE, чип Retimer.

Коммутатор PCIe, также известный как коммутатор PCIe или концентратор PCIe, в основном используется для соединения устройств PCIe, а протокол связи чипа коммутатора PCIe и его устройства — PCIe. Поскольку связь по каналу PCIe представляет собой своего рода сквозную передачу данных, коммутатору необходимо обеспечить возможности расширения или агрегирования, чтобы позволить большему количеству устройств подключаться к порту PCle и решить проблему недостаточного количества каналов PCIe. В настоящее время PCIe Switch не только широко используется в традиционных системах хранения, но и постепенно популяризируется на некоторых серверных платформах для повышения скорости передачи данных.

Модернизация технологии шины PCIe, увеличение скорости PCIe Switch с каждым поколением. Шина PCIe — это высокоскоростная последовательная замена шины PCI. В 2001 году Intel анонсировала технологию ввода-вывода третьего поколения для замены шины PCI, названную «3GIO». В 2002 году эта технология была официально переименована в «PCI Express» после рассмотрения PCI Special Interest Group (PCI-SIG), что ознаменовало рождение PCIe. В 2003 году был официально выпущен PCIe 1.0, поддерживающий скорость передачи 250 МБ/с на канал и общую скорость передачи 2.5 ГТ/с. В 2007 году PCI-SIG объявила о запуске спецификации PCI Express Base 2.0. На основе PCIe 1.0 общая скорость передачи была удвоена до 5 ГТ/с, а скорость передачи на канал увеличилась с 250 МБ/с до 500 МБ/с. В 2022 году PCI-SIG официально выпустила спецификацию PCIe 6.0, увеличив общую пропускную способность до 64 ГТ/с.

PCle от 1.0 до 6.0

Источник: Википедия

Поскольку PCIe все чаще применяется в серверах, рыночный спрос на коммутаторы PCIe также растет. Согласно статистике и прогнозу QYResearch, объем продаж чипов PCIe на мировом рынке в 790 году достиг 2021 миллионов долларов США, а в 1.8 году ожидается, что он достигнет 2028 миллиарда долларов США, при среднегодовом темпе роста (CAGR) 11.9%.

ПКле переключатель

Источник: Asmedia, BroadCom и Microchip.

Китай является крупнейшим рынком для коммутаторов PCIe. Поскольку спрос на хранение и передачу больших объемов данных на серверах возрастает, необходимо большое количество решений для высокоскоростных межсоединений для обеспечения массовой передачи данных в области больших данных, облачных вычислений, искусственного интеллекта и т. д. В качестве высокоскоростного межсоединения Решение PCIe Switch пользуется большим спросом на китайском рынке.

В серверах AI требуется как минимум один чип Retimer для обеспечения качества сигнала при подключении графического процессора и процессора. В частности, многие серверы ИИ настраивают несколько микросхем Retimer, например Astera Labs, которая настраивает четыре чипа Retimer в ускорителе AI.

ретаймер ИИ

Источник: Лаборатория Астера.

PCIe Retimer — это рынок голубого океана с тремя ведущими производителями и множеством потенциальных конкурентов. В настоящее время Parade Technologies, Astera Labs и Montage Technology являются тремя основными поставщиками на рынке голубого океана PCIe Retimer, занимая доминирующее положение. Среди них компания Montage Technology ранее внедрила PCIe и является единственным поставщиком в материковом Китае, который может массово производить PCIe 4.0 Retimer, и ее разработка PCIe 5.0 Retimer продвигается гладко.

pcle

Источник: Montage Technology, Astera Labs и Parade Technologies.

Кроме того, производители чипов, включая Renesas, TI, Microchip Technology и другие, также активно участвуют в разработке продукта PCIe Retimer. Согласно информации на официальном сайте, Renesas может предоставить два продукта PCIe 3.0 Retimer, а именно 89HT0816AP и 89HT0832P; TI может предоставить 16-гигабитный 8-канальный PCIe 4.0 Retimer – DS160PT801; аналогично, Microchip Technology выпустила серию XpressConnect чипов Retimer в ноябре 2020 года, которые могут поддерживать скорость PCIe 5.0 32 ГТ/с.

Соединение GPU-GPU: NVLink, NVSwitch

Мировые производители чипов обращают внимание на сопутствующие технологии высокоскоростных интерфейсов. Помимо NVLink от NVIDIA, решения для высокоскоростного соединения внутри серверов также предоставляют Infinity Fabric от AMD и CXL (Compute Express Link) от Intel.

Постоянно обновляемая система NVlink произвела революцию в технологии высокоскоростных межсетевых соединений. NVLink — это технология высокоскоростного соединения, разработанная NVIDIA, целью которой является повышение скорости передачи данных между процессором и графическим процессором, графическим процессором и графическим процессором, а также повышение производительности системы. С 2016 по 2022 год NVLink перешел на четвертое поколение. В 2016 году NVIDIA выпустила новый чип высокоскоростного интерфейса — NVLink, встроенный в графический процессор Pascal GP100. Это первое поколение NVLink. NVLink использует технологию высокоскоростного соединения сигналов (NVHS), которая в основном используется для передачи сигналов между графическим процессором и графическим процессором, графическим процессором и процессором. Графические процессоры передают электрические сигналы дифференциального импеданса в форме кодирования NRZ (без возврата к нулю). Один канал NVLink первого поколения может обеспечить двунаправленную пропускную способность 40 ГБ/с, а один чип может поддерживать четыре канала, то есть общую двунаправленную пропускную способность 160 ГБ/с.

сравнение четырех поколений nvlink

Источник: NVIDIA

Технология НВЛинк претерпел несколько итераций и обновлений, вызвав волну инноваций в технологии высокоскоростных межсоединений. В 2017 году было выпущено второе поколение NVLink на основе архитектуры Volta, которое может достигать двунаправленной пропускной способности 50 ГБ/с на канал и поддерживать шесть каналов на чип, то есть общую двунаправленную пропускную способность 300 ГБ/с. В 2020 году было выпущено третье поколение NVLink на основе архитектуры Ampere, которое может достигать двунаправленной пропускной способности 50 ГБ/с на канал и поддерживать 12 каналов на чип, то есть общую двунаправленную пропускную способность 600 ГБ/с. В 2022 году было выпущено четвертое поколение NVLink на основе архитектуры Hopper, которое изменило сигнал передачи на модулированный электрический сигнал PAM4 и может достигать двунаправленной полосы пропускания 50 ГБ/с на канал и поддерживать 18 каналов на чип, то есть Общая двунаправленная пропускная способность 900 ГБ/с.

В 2018 году NVDIA выпустила первое поколение NVSwitch, которое позволило улучшить пропускную способность, уменьшить задержку и обеспечить связь между несколькими графическими процессорами внутри сервера. Первое поколение NVSwitch было изготовлено с использованием 12-нм техпроцесса FinFET TSMC и имело 18 интерфейсов NVLink 2.0. Сервер может поддерживать 16 графических процессоров V100 через 12 коммутаторов NVSwitch, обеспечивая максимальную скорость соединения с помощью NVLink.

Сравнение производительности трех поколений NV Switch

Источник: NVIDIA

В настоящее время NVSwitch перешел на третье поколение. Третье поколение NVSwitch построено с использованием процесса TSMC 4N, и каждый чип NVSwitch имеет 64 порта NVLink 4.0. Скорость связи между графическими процессорами может достигать 900 ГБ/с, и эти графические процессоры, подключенные с помощью переключателя NVLink, можно использовать как единый высокопроизводительный ускоритель с возможностями глубокого обучения.

Высокоскоростное соединение между ЦП и DRAM стимулирует спрос на микросхемы интерфейса памяти.

Основными типами серверных модулей памяти являются RDIMM и LRDIMM, к которым предъявляются более высокие требования к стабильности, исправлению ошибок и низкому энергопотреблению, чем к другим типам модулей памяти. Микросхема интерфейса памяти — это основное логическое устройство модуля памяти сервера и необходимый путь для доступа ЦП сервера к данным памяти. Его основная функция — повысить скорость и стабильность доступа к данным в памяти и удовлетворить растущие потребности серверного процессора в высокой производительности и большой емкости для модулей памяти.

Классификация модулей памяти и последующие приложения

Источник: ЦСДН

Скорость чипов интерфейса памяти продолжает увеличиваться от DDR4 до DDR5. С 2016 года DDR4 стала основной технологией на рынке памяти. Чтобы добиться более высокой скорости передачи и поддержки большего объема памяти, организация JEDEC дополнительно обновила и улучшила технические характеристики микросхем интерфейса памяти DDR4. В поколении DDR4, от Gen1.0, Gen1.5 и Gen2.0 до Gen2plus, максимальная скорость передачи, поддерживаемая каждым подпоколением микросхем интерфейса памяти, постоянно увеличивается, и последний продукт подпоколения DDR4 Gen2plus поддерживает максимальную скорость передачи 3200 МТ/с. Поскольку организация JEDEC продолжает совершенствовать определение спецификаций продуктов с интерфейсом памяти DDR5, технология памяти DDR5 постепенно заменяет технологию памяти DDR4.

В настоящее время запланировано три подпоколения чипов интерфейса памяти DDR5 со скоростями поддержки 4800 МТ/с, 5600 МТ/с и 6400 МТ/с соответственно. В отрасли ожидают, что в будущем могут появиться еще 1-2 подпоколения.

Микросхемы интерфейса памяти делятся на два типа в зависимости от их функций: буфер регистров (RCD) и буфер данных (DB). RCD используется для буферизации сигналов адреса, команд и управления от контроллера памяти, а DB используется для буферизации сигналов данных от контроллера памяти или гранул памяти.

ДДР4, ДДР5

Источник: Технология монтажа.

Обновление модулей памяти DDR5 открывает новые возможности для микросхем интерфейса памяти и микросхем, поддерживающих модули. В 2016 году объем мирового рынка чипов интерфейса памяти составлял около 280 миллионов долларов США, а в 570 году он достиг около 2018 миллионов долларов США, при этом трехлетний годовой темп роста составил 40%. Обновление DDR5 выведет размер рынка микросхем интерфейса памяти на новый уровень. По сравнению с DDR4, из-за более высокой скорости поддержки и более сложной конструкции DDR5, стартовая цена первого подпоколения микросхем интерфейса памяти DDR5 выше, чем у чипов интерфейса памяти DDR4. В то же время, поскольку уровень проникновения памяти DDR5 в серверы и ПК постепенно увеличивается, ожидается, что размер рынка чипов интерфейса памяти, связанных с DDR5, будет быстро расти.

Индустрия чипов интерфейса памяти имеет высокие барьеры, и сформировалась трехсторонняя модель. Чипы интерфейса памяти — это наукоемкая отрасль, и их можно использовать в больших масштабах только после того, как они будут строго проверены во всех аспектах производителями процессоров, памяти и OEM-производителями, а новым игрокам трудно войти. С увеличением технической сложности количество проигрывателей микросхем интерфейса памяти сократилось с более чем 10 в поколении DDR2 до всего лишь 3 в поколении DDR4. Отрасль очистилась, и сформировалась трехсторонняя модель. Что касается поколения DDR5, в мире есть только три поставщика, которые могут обеспечить массовое производство продуктов первого подпоколения DDR5, а именно Montage Technology, Renesas Electronics (IDT) и Rambus.

Оставьте комментарий

Наверх