По данным TrendForce, поставки ИИ-серверов составили около 130,000 1 единиц, что составляет около 2023% мировых поставок серверов. Заглядывая в будущее до 2023 года, Microsoft, Meta, Baidu и ByteDance последовательно запускают продукты и услуги на основе генеративного искусственного интеллекта и активно увеличивают заказы. Предполагается, что ежегодные темпы роста поставок ИИ-серверов в 15.4 году достигнут 12.2%, а с учетом будущего спроса ChatGPT на ИИ-серверы ожидается, что совокупный годовой темп роста ИИ-серверов составит 2023% с 2027 по XNUMX год. .
DGX H100 был выпущен в 2022 году и является последней версией системы NVIDIA DGX, а также основой NVIDIA DGX SuperPOD. Серверы DXG оснащены 8 графическими процессорами H100 и 640 миллиардами транзисторов и предлагают в 6 раз более высокую производительность ИИ, чем предыдущее поколение, с новой точностью FP8, обеспечивая пропускную способность 900 ГБ/с.
Источник: NVIDIA
Внутри сервера DGX H100 синие блоки представляют собой IP-сетевые карты, которые могут действовать как сетевые карты, а также играть роль расширения PCIe Switch, становясь мостом между ЦП и графическим процессором (H100). Внутри он использует стандарт PCle 5.0. Кроме того, CX7 состоит из 2 карт в виде чипов сетевых карт для подключения к серверу, и каждая карта состоит из 4 чипов CX7 и выводит 2 порта оптического модуля 800G OSFP.
Соединение между графическими процессорами (H100) в основном обеспечивается микросхемами NV Switch. Каждый графический процессор в DGXH100 расширяет 18 каналов NVLink наружу с двунаправленной пропускной способностью 50 ГБ/с на канал, что в сумме составляет 18*50 ГБ/с = 900 ГБ/с. Двунаправленная пропускная способность делится на 4 встроенных NV-переключателя, поэтому каждый NV-переключатель соответствует 4-5 оптических модулей OSFP (всего 18). Каждый Оптический модуль OSFP использует 8 оптических каналов со скоростью передачи 100 Гбит/с на канал, поэтому общая скорость достигает 800Gbps, что обеспечивает высокоскоростную передачу данных.
Соединение таких компонентов, как процессор, графический процессор: переключатель PCIE, чип Retimer.
Коммутатор PCIe, также известный как коммутатор PCIe или концентратор PCIe, в основном используется для соединения устройств PCIe, а протокол связи чипа коммутатора PCIe и его устройства — PCIe. Поскольку связь по каналу PCIe представляет собой своего рода сквозную передачу данных, коммутатору необходимо обеспечить возможности расширения или агрегирования, чтобы позволить большему количеству устройств подключаться к порту PCle и решить проблему недостаточного количества каналов PCIe. В настоящее время PCIe Switch не только широко используется в традиционных системах хранения, но и постепенно популяризируется на некоторых серверных платформах для повышения скорости передачи данных.
Модернизация технологии шины PCIe, увеличение скорости PCIe Switch с каждым поколением. Шина PCIe — это высокоскоростная последовательная замена шины PCI. В 2001 году Intel анонсировала технологию ввода-вывода третьего поколения для замены шины PCI, названную «3GIO». В 2002 году эта технология была официально переименована в «PCI Express» после рассмотрения PCI Special Interest Group (PCI-SIG), что ознаменовало рождение PCIe. В 2003 году был официально выпущен PCIe 1.0, поддерживающий скорость передачи 250 МБ/с на канал и общую скорость передачи 2.5 ГТ/с. В 2007 году PCI-SIG объявила о запуске спецификации PCI Express Base 2.0. На основе PCIe 1.0 общая скорость передачи была удвоена до 5 ГТ/с, а скорость передачи на канал увеличилась с 250 МБ/с до 500 МБ/с. В 2022 году PCI-SIG официально выпустила спецификацию PCIe 6.0, увеличив общую пропускную способность до 64 ГТ/с.
Источник: Википедия
Поскольку PCIe все чаще применяется в серверах, рыночный спрос на коммутаторы PCIe также растет. Согласно статистике и прогнозу QYResearch, объем продаж чипов PCIe на мировом рынке в 790 году достиг 2021 миллионов долларов США, а в 1.8 году ожидается, что он достигнет 2028 миллиарда долларов США, при среднегодовом темпе роста (CAGR) 11.9%.
Источник: Asmedia, BroadCom и Microchip.
Китай является крупнейшим рынком для коммутаторов PCIe. Поскольку спрос на хранение и передачу больших объемов данных на серверах возрастает, необходимо большое количество решений для высокоскоростных межсоединений для обеспечения массовой передачи данных в области больших данных, облачных вычислений, искусственного интеллекта и т. д. В качестве высокоскоростного межсоединения Решение PCIe Switch пользуется большим спросом на китайском рынке.
В серверах AI требуется как минимум один чип Retimer для обеспечения качества сигнала при подключении графического процессора и процессора. В частности, многие серверы ИИ настраивают несколько микросхем Retimer, например Astera Labs, которая настраивает четыре чипа Retimer в ускорителе AI.
Источник: Лаборатория Астера.
PCIe Retimer — это рынок голубого океана с тремя ведущими производителями и множеством потенциальных конкурентов. В настоящее время Parade Technologies, Astera Labs и Montage Technology являются тремя основными поставщиками на рынке голубого океана PCIe Retimer, занимая доминирующее положение. Среди них компания Montage Technology ранее внедрила PCIe и является единственным поставщиком в материковом Китае, который может массово производить PCIe 4.0 Retimer, и ее разработка PCIe 5.0 Retimer продвигается гладко.
Источник: Montage Technology, Astera Labs и Parade Technologies.
Кроме того, производители чипов, включая Renesas, TI, Microchip Technology и другие, также активно участвуют в разработке продукта PCIe Retimer. Согласно информации на официальном сайте, Renesas может предоставить два продукта PCIe 3.0 Retimer, а именно 89HT0816AP и 89HT0832P; TI может предоставить 16-гигабитный 8-канальный PCIe 4.0 Retimer – DS160PT801; аналогично, Microchip Technology выпустила серию XpressConnect чипов Retimer в ноябре 2020 года, которые могут поддерживать скорость PCIe 5.0 32 ГТ/с.
Соединение GPU-GPU: NVLink, NVSwitch
Мировые производители чипов обращают внимание на сопутствующие технологии высокоскоростных интерфейсов. Помимо NVLink от NVIDIA, решения для высокоскоростного соединения внутри серверов также предоставляют Infinity Fabric от AMD и CXL (Compute Express Link) от Intel.
Постоянно обновляемая система NVlink произвела революцию в технологии высокоскоростных межсетевых соединений. NVLink — это технология высокоскоростного соединения, разработанная NVIDIA, целью которой является повышение скорости передачи данных между процессором и графическим процессором, графическим процессором и графическим процессором, а также повышение производительности системы. С 2016 по 2022 год NVLink перешел на четвертое поколение. В 2016 году NVIDIA выпустила новый чип высокоскоростного интерфейса — NVLink, встроенный в графический процессор Pascal GP100. Это первое поколение NVLink. NVLink использует технологию высокоскоростного соединения сигналов (NVHS), которая в основном используется для передачи сигналов между графическим процессором и графическим процессором, графическим процессором и процессором. Графические процессоры передают электрические сигналы дифференциального импеданса в форме кодирования NRZ (без возврата к нулю). Один канал NVLink первого поколения может обеспечить двунаправленную пропускную способность 40 ГБ/с, а один чип может поддерживать четыре канала, то есть общую двунаправленную пропускную способность 160 ГБ/с.
Источник: NVIDIA
Технология НВЛинк претерпел несколько итераций и обновлений, вызвав волну инноваций в технологии высокоскоростных межсоединений. В 2017 году было выпущено второе поколение NVLink на основе архитектуры Volta, которое может достигать двунаправленной пропускной способности 50 ГБ/с на канал и поддерживать шесть каналов на чип, то есть общую двунаправленную пропускную способность 300 ГБ/с. В 2020 году было выпущено третье поколение NVLink на основе архитектуры Ampere, которое может достигать двунаправленной пропускной способности 50 ГБ/с на канал и поддерживать 12 каналов на чип, то есть общую двунаправленную пропускную способность 600 ГБ/с. В 2022 году было выпущено четвертое поколение NVLink на основе архитектуры Hopper, которое изменило сигнал передачи на модулированный электрический сигнал PAM4 и может достигать двунаправленной полосы пропускания 50 ГБ/с на канал и поддерживать 18 каналов на чип, то есть Общая двунаправленная пропускная способность 900 ГБ/с.
В 2018 году NVDIA выпустила первое поколение NVSwitch, которое позволило улучшить пропускную способность, уменьшить задержку и обеспечить связь между несколькими графическими процессорами внутри сервера. Первое поколение NVSwitch было изготовлено с использованием 12-нм техпроцесса FinFET TSMC и имело 18 интерфейсов NVLink 2.0. Сервер может поддерживать 16 графических процессоров V100 через 12 коммутаторов NVSwitch, обеспечивая максимальную скорость соединения с помощью NVLink.
Источник: NVIDIA
В настоящее время NVSwitch перешел на третье поколение. Третье поколение NVSwitch построено с использованием процесса TSMC 4N, и каждый чип NVSwitch имеет 64 порта NVLink 4.0. Скорость связи между графическими процессорами может достигать 900 ГБ/с, и эти графические процессоры, подключенные с помощью переключателя NVLink, можно использовать как единый высокопроизводительный ускоритель с возможностями глубокого обучения.
Высокоскоростное соединение между ЦП и DRAM стимулирует спрос на микросхемы интерфейса памяти.
Основными типами серверных модулей памяти являются RDIMM и LRDIMM, к которым предъявляются более высокие требования к стабильности, исправлению ошибок и низкому энергопотреблению, чем к другим типам модулей памяти. Микросхема интерфейса памяти — это основное логическое устройство модуля памяти сервера и необходимый путь для доступа ЦП сервера к данным памяти. Его основная функция — повысить скорость и стабильность доступа к данным в памяти и удовлетворить растущие потребности серверного процессора в высокой производительности и большой емкости для модулей памяти.
Источник: ЦСДН
Скорость чипов интерфейса памяти продолжает увеличиваться от DDR4 до DDR5. С 2016 года DDR4 стала основной технологией на рынке памяти. Чтобы добиться более высокой скорости передачи и поддержки большего объема памяти, организация JEDEC дополнительно обновила и улучшила технические характеристики микросхем интерфейса памяти DDR4. В поколении DDR4, от Gen1.0, Gen1.5 и Gen2.0 до Gen2plus, максимальная скорость передачи, поддерживаемая каждым подпоколением микросхем интерфейса памяти, постоянно увеличивается, и последний продукт подпоколения DDR4 Gen2plus поддерживает максимальную скорость передачи 3200 МТ/с. Поскольку организация JEDEC продолжает совершенствовать определение спецификаций продуктов с интерфейсом памяти DDR5, технология памяти DDR5 постепенно заменяет технологию памяти DDR4.
В настоящее время запланировано три подпоколения чипов интерфейса памяти DDR5 со скоростями поддержки 4800 МТ/с, 5600 МТ/с и 6400 МТ/с соответственно. В отрасли ожидают, что в будущем могут появиться еще 1-2 подпоколения.
Микросхемы интерфейса памяти делятся на два типа в зависимости от их функций: буфер регистров (RCD) и буфер данных (DB). RCD используется для буферизации сигналов адреса, команд и управления от контроллера памяти, а DB используется для буферизации сигналов данных от контроллера памяти или гранул памяти.
Источник: Технология монтажа.
Обновление модулей памяти DDR5 открывает новые возможности для микросхем интерфейса памяти и микросхем, поддерживающих модули. В 2016 году объем мирового рынка чипов интерфейса памяти составлял около 280 миллионов долларов США, а в 570 году он достиг около 2018 миллионов долларов США, при этом трехлетний годовой темп роста составил 40%. Обновление DDR5 выведет размер рынка микросхем интерфейса памяти на новый уровень. По сравнению с DDR4, из-за более высокой скорости поддержки и более сложной конструкции DDR5, стартовая цена первого подпоколения микросхем интерфейса памяти DDR5 выше, чем у чипов интерфейса памяти DDR4. В то же время, поскольку уровень проникновения памяти DDR5 в серверы и ПК постепенно увеличивается, ожидается, что размер рынка чипов интерфейса памяти, связанных с DDR5, будет быстро расти.
Индустрия чипов интерфейса памяти имеет высокие барьеры, и сформировалась трехсторонняя модель. Чипы интерфейса памяти — это наукоемкая отрасль, и их можно использовать в больших масштабах только после того, как они будут строго проверены во всех аспектах производителями процессоров, памяти и OEM-производителями, а новым игрокам трудно войти. С увеличением технической сложности количество проигрывателей микросхем интерфейса памяти сократилось с более чем 10 в поколении DDR2 до всего лишь 3 в поколении DDR4. Отрасль очистилась, и сформировалась трехсторонняя модель. Что касается поколения DDR5, в мире есть только три поставщика, которые могут обеспечить массовое производство продуктов первого подпоколения DDR5, а именно Montage Technology, Renesas Electronics (IDT) и Rambus.
Сопутствующие товары:
- Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC $650.00
- NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $850.00
- NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $750.00
- NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1100.00
- Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1200.00
- Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера $800.00
- Mellanox MMA1T00-HS, совместимый с 200G Infiniband HDR QSFP56 SR4, 850 нм, 100 м, MPO-12, модуль оптического приемопередатчика APC OM3/OM4 FEC PAM4 $200.00
- Совместимость с NVIDIA MFP7E10-N010, 10 волокон, длина 33 м (8 футов), низкие вносимые потери, гнездо-мама Магистральный кабель MPO, полярность B, APC-APC, LSZH, многомодовый OM3 50/125 $47.00
- Совместимый с NVIDIA MCP7Y00-N003-FLT 3 м (10 фута) 800G OSFP с двумя портами до 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $275.00
- NVIDIA MCP7Y70-H002 Совместимость с двумя портами 2G, 7 м (400 фута), от 2x200G OSFP до 4x100G QSFP56, медный кабель прямого подключения с пассивной разводкой $155.00
- NVIDIA MCA4J80-N003-FTF, совместимый с двумя портами 3G, 10 м (800 футов), 2x400G OSFP на 2x400G OSFP, активный медный кабель InfiniBand NDR, плоская верхняя часть на одном конце и ребристая верхняя часть на другом $600.00
- NVIDIA MCP7Y10-N002, совместимый с двухпортовым OSFP 2G InfiniBand NDR длиной 7 м (800 фута) с 2x400G QSFP112 Breakout ЦАП $200.00