В марте этого года NVIDIA выпустила Blackwell B200, известный как самый мощный в мире чип искусственного интеллекта. Чем он отличается от предыдущих A100, A800, H100 и H800?

Блэквелл B200
Эволюция архитектуры графических процессоров NVIDIA
Давайте сначала рассмотрим историю развития вычислительной мощности карт-ускорителей искусственного интеллекта NVIDIA:
Первое поколение карт-ускорителей искусственного интеллекта называется Volta., которая является первой архитектурой тензорного ядра NVIDIA, разработанной специально для вычислений с использованием искусственного интеллекта.
Тензорная вычислительная архитектура второго поколения называется Тьюринг., который представляет видеокарту T4.
Тензорная вычислительная архитектура третьего поколения Ampere наконец-то добрался и до видеокарт серии A100, с которыми мы более знакомы.
Благодаря поддержке обновлений процессорного процесса количество SM одной карты увеличилось вдвое до 108. Количество ядер в SM такое же, как и у V100, но за счет обновления схемы вычислительного блока ядро может выполнять 256 плавающих ядер. -точечные умножения и накопления в каждом цикле, что в два раза больше, чем в старой архитектуре. Режим 8-битных вычислений с плавающей запятой (FP8) был добавлен для лучшего удовлетворения потребностей глубокого обучения того времени. Одно 16-битное ядро с плавающей запятой может быть рассчитано как два 8-битных ядра с плавающей запятой, что удваивает вычислительную мощность. Основная частота немного упала до 1.41ГГц. Таким образом, в итоге вычислительная мощность видеокарты A100 достигла почти 5-кратной мощности V100, что составляет 108*8*256*1.41ГГц*2 =624 терафлопс (FP8).

Ампер Архитектура
Архитектура четвертого поколения Hopper — это видеокарта серии H100, которую NVIDIA выпустила только в прошлом году, она была принята OpenAI для обучения больших языковых моделей и была запрещена из-за проблем с вычислительной мощностью.
Количество SM (132) этой видеокарты значительно не увеличилось по сравнению с предыдущим поколением, но благодаря новой архитектуре Tensor Core и дизайну асинхронной памяти количество операций умножения и накопления FP16, которые могут быть выполнены одним ядром SM за один цикл увеличилось вдвое, до 512 раз. Основная частота была немного увеличена до 1.83 ГГц, а вычислительная мощность одной карты, наконец, достигла ошеломляющего уровня в терафлопс (FP1978) 8 года, что стало первым случаем, когда она вошла в область PFLOPS (1.97 петафлопс).

Бункерная архитектура
Какой прогресс имеет архитектура пятого поколения Blackwell сделано на этой лестнице вычислительной мощности? Согласно общедоступным данным, если будет принят новый блок данных FP4, GB200 сможет достичь вычислительной мощности 20 петафлопс в задачах рассуждения. Если он будет восстановлен обратно в FP8, он также должен иметь потрясающую производительность в 10 PFLOPS, что примерно в 5 раз больше, чем у H100.
Публичные данные показывают, что основная частота процессора Blackwell составляет 2.1 ГГц. Если предположить, что архитектура не будет значительно обновлена, у Blackwell будет 600 SM, что почти в четыре раза больше, чем у H100. У Blackwell два кристалла, поэтому количество SM в видеокарте с одним кристаллом вдвое больше, чем у H100.
Можно сделать вывод, что с каждым поколением модернизации архитектуры вычислительная мощность одного графического процессора возрастала в несколько раз. Здесь мы приводим для вашего сведения диаграмму прогресса вычислительной мощности от архитектуры Volta до настоящего времени:

График прогресса вычислительной мощности
A100 против A800, H100 против H800
Зачем нам А800, когда у нас есть А100? Давайте сначала поговорим о предыстории.
В октябре 2022 года Соединенные Штаты ввели новые правила, ограничивающие экспорт полупроводников в Китай, включая ограничения на экспорт высокопроизводительных компьютерных чипов на материковую часть Китая. Показатели производительности NVIDIA A100 В качестве ограничивающего стандарта используются чипы, то есть регламентируются высокопроизводительные вычислительные чипы, которые соответствуют обоим следующим условиям:
(1) Скорость передачи данных чипа ввода-вывода больше или равна 600 Гбайт/с;
(2) Сумма битовой длины каждой операции «цифрового процессора, необработанного вычислительного блока», умноженная на вычислительную мощность, рассчитанную TOPS, больше или равна 4800TOPS.
Условия делают невозможным экспорт AI-чипов серии NVIDIA A100/H100 и AMD MI200/300 в Китай.

Сравнение графических процессоров Nvidia и AMD
Чтобы соответствовать ограничениям США и при этом удовлетворять потребности китайских клиентов, NVIDIA выпустила A800, замену A100. Судя по официальным параметрам, A800 в основном снижает скорость передачи данных NVLink с 600 ГБ/с у A100 до 400 ГБ/с, при этом другие параметры в основном такие же, как у A100.
В 2023 году NVIDIA выпустила графический процессор нового поколения H100, основанный на 4-нм техпроцессе, с 80 миллиардами транзисторов и 18,432 800 ядрами. Аналогичным образом NVIDIA выпустила специальную версию HXNUMX для китайского рынка.

Сравнение чипов
Фактически, в A800 были внесены изменения в полосу пропускания межсетевого соединения, а именно в N-мерную часть цепи и канала, с 600 Гбит/с, как у A100, до 400 Гбит/с. Однако в других аспектах, таких как двойная, одинарная и полуточность, вычислительная мощность ИИ не меняется.
Относительно говоря, H800 внес серьезные коррективы. Он не только внес коррективы в отношении ссылок, сохранив 8 NVlinks и 400G пропускная способность двунаправленного соединения, но также сократила вычисления двойной точности до нуля. Это критично для области HPC, поскольку вычислительная мощность двойной точности FP64 напрямую сокращается до единицы, что означает, что вы вряд ли сможете ее использовать.
Далее давайте посмотрим, на какие предприятия эти изменения сильно повлияют.
Поле боя с большой моделью: после настройки A800 эффективность обучения большой модели снизилась. A800 SXMM в основном снизил эффективность передачи данных между графическими картами, а пропускная способность снизилась на 33%. Если взять в качестве примера GPT-3, то его масштаб достигает 175 миллиардов, и для совместного обучения требуется несколько графических процессоров. Если пропускная способность недостаточна, производительность упадет примерно на 40%. Учитывая экономическую эффективность A 800 и H 800, китайские пользователи по-прежнему предпочитают A 800. Поскольку скорректированные A800 и H800 имеют пониженную эффективность обучения, и им необходимо обмениваться некоторыми данными в процессе обучения между картами, их снижение скорости передачи приводит к снижение их эффективности.
HPC: A800 и A100 имеют одинаковую вычислительную мощность двойной точности, поэтому они не влияют на область высокопроизводительных научных вычислений. Однако досадно то, что H800 напрямую снижает вычислительную мощность двойной точности до 1 терафлопс, поэтому его нельзя использовать. Это оказывает огромное влияние на область суперкомпьютеров.
Поэтому эффект очевиден. В области AIGC и HPC некоторые китайские компании могут отставать от иностранных компаний. Это предсказуемо, поэтому в некоторых случаях, если мы хотим, чтобы вычислительная мощность достигла определенной производительности, инвестиции могут быть выше. Кроме того, мы можем только одолжить подставную компанию из-за границы и открыть филиал, чтобы поставить задачу обучения крупных моделей за рубежом. Нам остается использовать только результаты обучения в Китае. Однако это лишь временное решение, особенно когда существует риск утечки данных из страны.
Итого
Как мы все знаем, Соединенные Штаты вводят все более строгие ограничения на китайские чипы, включая графические процессоры. В 2022 году в США были запрещены высокопроизводительные графические процессоры, в том числе A100, H100 и т. д., а в 2023 году — A800, H800, L40, L40S и даже настольная видеокарта RTX 4090.
Поэтому китайские технологические компании также активно корректируют свои промышленные стратегии, чтобы подготовиться к сокращению использования чипов Nvidia в будущем, избегая тем самым огромных затрат на постоянную корректировку технологий для адаптации к новым чипам. Поставщики облачных технологий, такие как Alibaba и Tencent, передали часть заказов на передовые полупроводники местным компаниям, таким как Huawei, и стали больше полагаться на свои чипы собственной разработки. Такие компании, как Baidu и ByteDance, также приняли аналогичные меры. Очевидно, что китайские компании решили исследовать путь вперед с помощью трехстороннего подхода: NVIDIA + собственной разработки + отечественные чипы ».
Сопутствующие товары:
-
Совместимый с NVIDIA MMA4Z00-NS400 400G OSFP SR4 Flat Top PAM4 850 нм 30 м на OM3/50 м на OM4 MTP/MPO-12 Многомодовый модуль оптического трансивера FEC $650.00
-
NVIDIA MMA4Z00-NS-FLT Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $850.00
-
NVIDIA MMA4Z00-NS Совместимый двухпортовый OSFP 800 Гбит/с 2x400G SR8 PAM4 850 нм 100 м DOM Двойной модуль оптического трансивера MPO-12 MMF $750.00
-
NVIDIA MMS4X00-NM Совместимый двухпортовый OSFP 800 Гбит/с 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1100.00
-
Совместимый с NVIDIA MMS4X00-NM-FLT 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Модуль оптического трансивера $1200.00
-
Совместимый с NVIDIA MMS4X00-NS400 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Модуль оптического трансивера $800.00
-
Mellanox MMA1T00-HS, совместимый с 200G Infiniband HDR QSFP56 SR4, 850 нм, 100 м, MPO-12, модуль оптического приемопередатчика APC OM3/OM4 FEC PAM4 $200.00
-
Совместимость с NVIDIA MFP7E10-N010, 10 волокон, длина 33 м (8 футов), низкие вносимые потери, гнездо-мама Магистральный кабель MPO, полярность B, APC-APC, LSZH, многомодовый OM3 50/125 $47.00
-
Совместимый с NVIDIA MCP7Y00-N003-FLT 3 м (10 фута) 800G OSFP с двумя портами до 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $275.00
-
NVIDIA MCP7Y70-H002 Совместимость с двумя портами 2G, 7 м (400 фута), от 2x200G OSFP до 4x100G QSFP56, медный кабель прямого подключения с пассивной разводкой $155.00
-
NVIDIA MCA4J80-N003-FTF, совместимый с двумя портами 3G, 10 м (800 футов), 2x400G OSFP на 2x400G OSFP, активный медный кабель InfiniBand NDR, плоская верхняя часть на одном конце и ребристая верхняя часть на другом $600.00
-
NVIDIA MCP7Y10-N002, совместимый с двухпортовым OSFP 2G InfiniBand NDR длиной 7 м (800 фута) с 2x400G QSFP112 Breakout ЦАП $200.00