Полуанализ Huawei CloudMatrix и 910C

Недавно Huawei оказала значительное влияние на отрасль благодаря своему инновационному ускорителю ИИ и архитектуре уровня стойки. Было официально представлено новейшее китайское решение для облачных суперкомпьютеров, CloudMatrix M8. Созданное на базе процессора Ascend 910C, это решение позиционируется как прямой конкурент системы Nvidia GB200 NVL72, демонстрируя превосходные технологические преимущества по нескольким ключевым показателям по сравнению с предложениями уровня стойки Nvidia. Инженерные прорывы не ограничиваются только уровнем чипа; они распространяются всесторонне на архитектуру ускорителя, топологию сети, технологию оптических соединений и программный стек, среди других измерений уровня системы.

CloudMatrix M8

Для SemiAnalysis чипы Ascend от Huawei далеко не незнакомы. В эпоху, когда общая значимость системы перевешивает только дизайн микроархитектуры, Huawei постоянно расширяет границы производительности систем искусственного интеллекта. Хотя существуют определенные технические компромиссы, в контексте экспортного контроля и ограниченных внутренних производственных мощностей текущая структура экспортного контроля Китая, по-видимому, все еще имеет эксплуатируемые лазейки.

Хотя технология чипов Huawei может отставать от конкурентов на одно поколение, ее решение по расширению, возможно, опережает на поколение текущие рыночные предложения от Nvidia и AMD. Например, CloudMatrix 384 (CM384) состоит из 384 чипов Ascend 910C, соединенных посредством полностью подключенной топологии. Философия дизайна здесь ясна: путем включения количества чипов Ascend, которое в пять раз больше, решение эффективно компенсирует тот факт, что производительность одного графического процессора составляет всего одну треть от серии Blackwell от Nvidia.

Рис-2

Полная система CloudMatrix способна обеспечить интенсивную вычислительную производительность BF16 в 300 петафлопс, что почти вдвое больше, чем у GB200 NVL72. Благодаря более чем 3.6-кратному увеличению общей емкости памяти и 2.1-кратному увеличению пропускной способности памяти Huawei — и, соответственно, Китай — теперь обладает возможностью развертывать системы ИИ, превосходящие те, что предоставляет Nvidia.

Кроме того, CM384 особенно хорошо соответствует областям, где Китай имеет явные преимущества, таким как возможности внутреннего сетевого производства, инфраструктурное программное обеспечение, предназначенное для смягчения сетевых сбоев, и потенциал для масштабирования до более крупных приложений за счет улучшения производительности производства. Однако решение не лишено недостатков: оно демонстрирует энергопотребление, которое в 3.9 раза выше, чем у GB200 NVL72, при этом эффективность per-FLOP снижена в 2.3 раза, эффективность полосы пропускания памяти (на ТБ/с) снижена в 1.8 раза, а эффективность емкости памяти с высокой пропускной способностью (HBM) на ТБ снижена в 1.1 раза.

Несмотря на эти недостатки в энергоэффективности, проблема энергопотребления не является критическим ограничением в китайском контексте. В то время как Запад часто утверждает, что развитие искусственного интеллекта ограничено поставками электроэнергии, ситуация в Китае совершенно противоположная. За последнее десятилетие, в то время как западные страны приложили значительные усилия для перевода своих угольных энергетических инфраструктур на более экологичные природный газ и возобновляемые источники энергии, а также для повышения энергоэффективности на душу населения, Китай сталкивается с растущим спросом на электроэнергию из-за повышенного уровня жизни и обширных крупномасштабных инвестиций.

Рис-3.-сравнение-мощностей-gimp

Хотя энергетическая система Китая традиционно в значительной степени опиралась на уголь, страна теперь лидирует в мире по установленным мощностям солнечной, гидро- и ветровой энергии, и в настоящее время она находится на переднем крае развертывания ядерной энергетики. Напротив, ядерные мощности Соединенных Штатов остаются на уровнях, напоминающих 1970-е годы. Короче говоря, возможности модернизации и расширения американской энергосистемы заметно сократились, тогда как дополнительная сетевая мощность, введенная в Китае с 2011 года, сопоставима со всем масштабом сети США.

В сценарии, где электричества относительно много, а ограничения по потреблению энергии не столь критичны, логичным инженерным решением становится отказ от строгих требований к плотности мощности в пользу более широкого масштабирования, особенно при включении в конструкцию таких достижений, как технология оптических соединений. Действительно, конструкция CM384 даже учитывает ограничения на системном уровне, выходящие за рамки стойки. Мы считаем, что ограничения амбиций Китая в области искусственного интеллекта определяются не только проблемами электропитания; решение Huawei продолжает предлагать различные пути для устойчивого и масштабируемого расширения.

Распространенное заблуждение заключается в том, что чип Huawei 910C полностью производится в Китае. Хотя процесс проектирования полностью выполняется внутри страны, фактическое производство по-прежнему в значительной степени зависит от иностранных ресурсов. Будь то высокоскоростная память Samsung (HBM) или оборудование из США, Нидерландов или Японии, производственный процесс по-прежнему в значительной степени зависит от глобальной цепочки поставок.

Huawei"s Путь закупок HBM

Зависимость Китая от внешних источников в передовых технологических областях — это только часть проблемы; его зависимость от высокоскоростной памяти (HBM) еще более остра. В настоящее время Китай еще не достиг стабильного, внутреннего массового производства HBM — ожидается, что Changxin Storage (CXMT) потребуется как минимум еще один год, чтобы достичь масштабов. К счастью, Samsung стал основным поставщиком HBM для Китая, и в результате Huawei заранее накопила 13 миллионов стеков HBM, что достаточно для упаковки 1.6 миллионов чипов Ascend 910C. Примечательно, что это накопление произошло до вступления в силу запрета на экспорт HBM.

Также следует отметить, что запрещенные компоненты HBM продолжают поступать обратно в Китай через серые каналы. Текущие ограничения на экспорт HBM применяются только к оригинальным упаковкам HBM; чипы, включающие HBM, по-прежнему могут легально перевозиться при условии, что они не превышают установленные лимиты операций с плавающей точкой (FLOPS). В этой связи единственный дистрибьютор Samsung в регионе Большого Китая, CoAsia Electronics, постоянно поставляет HBM2E компании по проектированию ASIC Faraday. Затем Faraday использует SPIL (Siliconware Precision) для упаковки этих компонентов памяти с экономичными 16-нм логическими чипами.

Затем Faraday отправляет готовую продукцию в Китай в пакете системного уровня. Хотя эта практика соответствует техническим регламентам, конструкция включает в себя крайне низкоинтенсивные, низкотемпературные припойные столбики, которые позволяют HBM легко отсоединяться от пакета. По сути, так называемая «упаковка» в данном случае представляет собой слабо интегрированную и почти формализованную сборку.

Рис-5.-CoAsia-Доход

С момента вступления в силу экспортного контроля в 2025 году доходы CoAsia Electronics резко возросли, и это событие, похоже, совсем не случайно.

Литейные заводы Китая сохраняют потенциал роста

Хотя китайская полупроводниковая промышленность по-прежнему полагается на зарубежное производство, ее внутренние возможности цепочки поставок быстро улучшились и долгое время недооценивались. Мы продолжаем внимательно следить за производственными возможностями SMIC (Semiconductor Manufacturing International Corporation) и CXMT (ChangXin Memory Technologies). Несмотря на текущие проблемы, связанные с выходом и мощностью, долгосрочная траектория к масштабируемому производству китайских графических процессоров остается заслуживающей внимания.

Рис-6.-диаграмма-чувствительности-gimp-final

Даже под давлением санкций и SMIC, и CXMT обеспечили себе производственное оборудование стоимостью в десятки миллиардов долларов, при этом продолжая импортировать значительные объемы эксклюзивных химикатов и материалов из-за рубежа. Например, SMIC расширяет свои передовые технологические мощности в Шанхае, Шэньчжэне и Пекине. Прогнозируется, что ее ежемесячное производство пластин приблизится к 50,000 910 единиц в этом году, а устойчивое расширение дополнительно обусловлено постоянным приобретением зарубежного оборудования в сочетании с не слишком строгим соблюдением санкций. Если показатели выхода годных улучшатся, объем упаковки чипов Ascend XNUMXC может достичь значительных уровней.

Хотя TSMC уже выделила 2.9 млн пластин для производства в 2024–2025 годах, что представляет собой достаточную мощность для производства приблизительно 800,000 910 чипов Ascend 1.05B и 910 млн чипов Ascend XNUMXC, у SMIC сохраняется потенциал для взрывного роста емкости, если не будут эффективно регулироваться высокоскоростная память (HBM), оборудование для изготовления пластин, ресурсы по обслуживанию оборудования и основные химические вещества (например, фоторезист).

Архитектура системы CloudMatrix 384

В следующем анализе рассматривается архитектурное проектирование системы CloudMatrix 384, изучаются ее вертикальные и горизонтальные сети расширения, бюджетирование энергопотребления и общая структура затрат.

Полная система CloudMatrix распределена по 16 стойкам. Из них 12 вычислительных стоек вмещают 32 графических процессора, а четыре дополнительные стойки, расположенные по центру, служат стойками коммутаторов вертикального расширения. Для создания гипермасштабируемого кластера Huawei использует подход к вертикальному расширению между стойками, который интегрирует технологию оптической связи — стратегию, которая обеспечивает полное взаимодействие сотен графических процессоров, хотя это и представляет значительные технические проблемы.

huawei cloud matrix 384 масштабируемый модуль

Сходство с DGX H100 NVL256 «Ranger»

Еще в 2022 году Nvidia представила платформу DGX H100 NVL256 «Ranger», однако система так и не вышла в массовое производство. Это было связано с непомерно высокой стоимостью, чрезмерным энергопотреблением и внутренними проблемами надежности, возникающими из-за избыточных требований к оптическим трансиверам и двухслойной сетевой архитектуры. Напротив, Huawei CloudMatrix Pod использует более экстремальный подход: для ее сетевой конструкции требуется 6,912 единиц модулей 400G Linear Pluggable Optical (LPO), подавляющее большинство из которых облегчают вертикальное расширение сетевой взаимосвязи.

Рис-8.-Nvidia-диаграмма-nvl256-используйте-это

Оценка топологии вертикального расширения CloudMatrix 384

В этом разделе представлена ​​углубленная оценка архитектуры вертикальной стойки расширения Huawei на 384 чипах — конструкция, позиционируемая как конкурент NVLink. Анализ охватывает как вертикальные, так и горизонтальные сети расширения, всестороннюю разбивку энергопотребления системы и оценку того, как крупномасштабное применение оптических модулей (и соответствующее отсутствие медных кабелей) влияет на общую производительность и стоимость. В частности, в обсуждении также рассматриваются последствия затрат, связанные с обширным развертыванием модулей LPO компанией Huawei.

Основные параметры

Каждый графический процессор Huawei Ascend 910C обеспечивает однонаправленную вертикальную пропускную способность расширения 2,800 Гбит/с, что сопоставимо по порядку с вертикальной пропускной способностью расширения 7,200 Гбит/с, обеспечиваемой Nvidia GB200 NVL72 на графический процессор. В то время как Nvidia NVL72 достигает своего вертикального сетевого соединения с помощью высокоплотного прямого медного кабеля, Huawei применяет более простой подход — развертывает семь Оптические трансиверы 400G на каждый графический процессор в стековой конфигурации для достижения показателя 2,800 Гбит/с.

Однако эта стратегия обходится дороже, значительно увеличивается потребление энергии, а также возникают проблемы, связанные с управлением воздушным потоком и простотой установки и обслуживания. Несмотря на эти препятствия, подход успешно соответствует функциональным целям системы. Сама сеть вертикального расширения использует однослойную архитектуру для соединения всех графических процессоров через 16,800 3 модульных коммутаторов, организованных в плоскую одноуровневую топологию. Эти коммутаторы используют фирменные линейные карты и коммутационные матричные плоскости Huawei, применяя механизм распыления ячеек, аналогичный механизму линейных карт Jericho3 компании Broadcom в паре с коммутационными матричными картами RamonXNUMX, которые можно найти в модульных коммутаторах Arista.

v2-5976b6dda67ec99ce0c0744cec080ec5_720w

Вертикальное расширение оптических межсоединений и конструкция без использования меди

Развертывание 5,000 оптических модулей для вертикального расширения может привести к проблемам с надежностью. Чтобы смягчить это, требуется высококачественное отказоустойчивое обучающее программное обеспечение для устранения потенциальных сбоев, которые могут возникнуть при таком масштабном развертывании оптических модулей.

Каждый модуль CloudMatrix 384 Pod оснащен в общей сложности 6,912 оптическими модулями/трансиверами 400G. Из них 5,376 выделены для вертикальной сети расширения, а оставшиеся 1,536 обслуживают горизонтальную сеть расширения.

Один Pod содержит 384 чипа Ascend 910C, каждый из которых обеспечивает пропускную способность межсоединения 2.8 Тбит/с для вертикальной расширяющейся связи. Следовательно, каждый чип требует семь трансиверов 400G, что дает 384 GPU × 7 = 2,688 трансиверов на Pod. Учитывая однослойную плоскую топологию, сторона коммутатора должна отразить это развертывание с 2,688 трансиверами, что приводит к общему использованию 5,376 трансиверов 400G в вертикальной расширяющейся сети.

Если используются линейные подключаемые оптические (LPO) трансиверы 400G по цене менее 200 долларов за штуку и потребляющие около 6.5 Вт на модуль, общая стоимость владения (TCO) вертикальной сети расширения суперузла будет примерно в шесть раз выше, чем у стойки NVL72, а энергопотребление будет в десять раз выше, чем у NVL72. Даже на основе каждого графического процессора, хотя энергопотребление вдвое больше, чем у NVL72, а стоимость остается относительно сопоставимой, вычислительная производительность достигает всего 30% от предлагаемой NVL72.

v2-194bffcd8f63b1697982ab9e84b4caae_720w

Оценка топологии горизонтального расширения CloudMatrix 384

CloudMatrix 384 использует двухслойную, 8-дорожечную оптимизированную топологию. Каждый модульный коммутатор CloudEngine для горизонтального расширения оснащен 768 портами 400G, 384 из которых подключаются вниз к 384 графическим процессорам, а остальные 384 порта зарезервированы для восходящего соединения. Поскольку каждый Pod содержит 384 графических процессора (каждый оснащен сетевой интерфейсной картой 400G), для доступа за пределами предоставления 0.5 коммутаторов Spine требуется дополнительный листовой коммутатор.

384 из которых подключены к 384 графическим процессорам

Расчет приемопередатчиков для этой сети прост:

  • Сторона графического процессора: необходимо 384 трансивера 400G (по одному на графический процессор);
  • Уровень листьев: поскольку половина портов используется для восходящего соединения (связывающего графические процессоры с уровнем позвоночника), количество требуемых трансиверов должно быть удвоено;
  • Итого: Таким образом, для горизонтальной сети расширения требуется 384 × 4 = 1,536 трансиверов 400G.

LPO трансиверы

Одной из потенциальных мер, предлагаемых Huawei для снижения общего энергопотребления кластера, является принятие модулей Linear Pluggable Optical (LPO) для оптической передачи. Модули LPO предназначены для передачи данных напрямую через оптические сигналы без необходимости использования внутреннего цифрового сигнального процессора (DSP). В отличие от обычных трансиверов, которые преобразуют аналоговые сигналы в цифровые для калибровки/восстановления синхронизации перед их обратным преобразованием в аналоговые, модули LPO выполняют прямую линейную передачу электрических сигналов от хоста к оптическому устройству. Такая конструкция упрощает внутреннюю архитектуру модуля, обеспечивая более чем 30%-ное снижение как энергопотребления, так и стоимости. Однако, поскольку по-прежнему требуется большое количество трансиверов, общее энергопотребление кластера CM384 остается значительно выше по сравнению с NVL72.

Уровень чипа

Ускорители Ascend 910B и 910C от Huawei представляют собой вершину китайских графических процессоров отечественного производства. Несмотря на определенные технологические ограничения, их производительность остается выдающейся. Однако на уровне чипа их производительность пока не достигает производительности сопоставимых продуктов NVIDIA.

Ускорители Ascend 910B и 910C от Huawei

Ascend 910C — это итерация 910B, интегрирующая слои интерпозера двух чипов 910B на одной подложке. Эта интеграция эффективно удваивает производительность вычислений на одном чипе, а также пропускную способность памяти.

Ascend 910C — это итерация 910B

Оценка энергопотребления на уровне системы

Из-за обширного развертывания оптических трансиверов как в вертикальных, так и в горизонтальных сетях расширения энергопотребление кластера, содержащего 384 графических процессора, чрезвычайно велико. По оценкам, один суперузел CM384 потребляет около 500 киловатт, что более чем в четыре раза превышает приблизительно 145 киловатт, потребляемых стойкой NVIDIA GB200 NVL72.

более чем в четыре раза превышает приблизительно 145 киловатт, потребляемых стойкой NVIDIA GB200 NVL72

Сравнение энергоэффективности одного графического процессора

На основе отдельного графического процессора общее энергопотребление графических процессоров Huawei составляет примерно 70–80 % от энергопотребления графических процессоров NVIDIA NVL72 B200. С точки зрения общей производительности суперузла решение Huawei обеспечивает на 70 % больше операций с плавающей точкой в ​​секунду (FLOPS) по сравнению с NVL72. Однако архитектурный дизайн вносит следующие недостатки в энергоэффективность:

  • Потребляемая мощность на FLOP: в 2.3 раза выше,
  • Потребляемая мощность на ТБ/с пропускной способности памяти: в 1.8 раза выше,
  • Потребляемая мощность на ТБ емкости памяти HBM: в 1.1 раза выше.
Сравнение энергоэффективности одного графического процессора

Эти дополнительные расходы и более высокое энергопотребление представляют собой расходы, которые Китай должен понести в своих усилиях соответствовать западным уровням вычислительной производительности. Учитывая обильные энергетические запасы Китая и значимость национальной безопасности в таких проектах, эти расходы считаются относительно управляемыми. Энергетическое преимущество Китая, вероятно, послужит критически важным активом, позволяя центрам обработки данных расширяться как по масштабу, так и по скорости.

Оставьте комментарий

Наверх