По данным тайваньской газеты Economic Daily News, NVIDIA планирует представить линейку серверов GB300 AI следующего поколения на конференции GTC в марте следующего года.
Недавно Foxconn и Quanta активно начали исследования и разработку GB300, чтобы воспользоваться этой возможностью на раннем этапе. Известно, что NVIDIA предварительно определила конфигурацию заказа GB300, при этом Foxconn остается ее крупнейшим поставщиком. Ожидается, что GB300 выйдет на рынок в первой половине следующего года, опередив мировых конкурентов. Отраслевые источники сообщают, что Quanta и Inventec также являются ключевыми партнерами по серверам NVIDIA GB300 AI. Quanta занимает второе место после Foxconn по доле заказов, в то время как Inventec значительно увеличила свою долю заказов по сравнению с GB200, что позволяет им извлечь выгоду из возможностей GB300 следующего поколения.
Графический процессор: B200 → B300
В октябре этого года NVIDIA переименовала все продукты Blackwell Ultra в серию B300, в которой используется технология CoWoS-L, что стимулирует спрос на передовые решения в области корпусирования.
Повышение производительности
Новый графический процессор B300 обеспечивает в 1.5 раза больше производительности вычислений с плавающей точкой (FP4) по сравнению с предыдущей моделью B200.
Тепловая мощность TDP
Потребляемая мощность графического процессора B300 может достигать 1400 Вт по сравнению с примерно 1000 Вт для B200, что является значительным скачком. Чтобы поддерживать эту существенную мощность, и система питания, и система охлаждения должны соответствовать требованиям.
Модернизированная система жидкостного охлаждения
Пластина жидкостного охлаждения + усовершенствованный быстросменный разъем UQD: Потребляемая мощность 1400 Вт делает воздушное охлаждение недостаточным. Поэтому GB300 использует пластины жидкостного охлаждения и модернизирует быстросменные разъемы UQD для повышения эффективности и надежности.
Новая конструкция шкафа: компоновка шкафа, конструкция трубопроводов и охлаждающих каналов были переработаны для размещения большего количества пластин водяного охлаждения, систем жидкостного охлаждения и компонентов быстрого соединения UQD.
Значительное обновление памяти HBM3e
192 ГБ → 288 ГБ: Помните 192 ГБ памяти HBM3 в эпоху GB200? Теперь каждый графический процессор B300 может похвастаться ошеломляющими 288 ГБ HBM3e! Это существенное увеличение по сути является зеленым светом для обширного обучения модели, что делает его весьма привлекательным для больших моделей с сотнями миллиардов параметров.
Стекирование 8 слоев → 12 слоев: по сравнению с предыдущим 8-слойным стеком, новая конфигурация использует 12-слойный стек — не только увеличивая емкость, но и значительно увеличивая пропускную способность. Этот высокий параллелизм позволяет данным проходить плавно, без узких мест.
Сеть и передача
Сетевая карта: ConnectX 7 → ConnectX 8: GB300 обновился с сетевой карты ConnectX 7 до ConnectX 8. Это обновление обеспечивает комплексное улучшение пропускной способности, задержки и надежности, гарантируя бесперебойную передачу данных в крупномасштабных кластерах.
Оптические модули: 800G → 1.6T: обновление с 800G до 1.6T сравнимо с переключением со второй на четвертую передачу. Для сценариев, включающих массивные взаимодействия с данными, такие как HPC и обучение ИИ, это увеличение пропускной способности является спасением.
Управление питанием и надежность
Новые дополнения: стандартизированный лоток конденсатора и BBU: шкаф GB300 NVL72 теперь оснащен стандартизированным лотком конденсатора с дополнительной системой резервного аккумуляторного блока (BBU). Каждый модуль BBU стоит около 300 долларов, а для всей системы GB300 требуется около 5 модулей BBU, что в общей сложности стоит около 1500 долларов. Хотя это может показаться дорогостоящим, это важнейшая инвестиция, позволяющая избежать внезапных отключений питания в средах ИИ с высокой нагрузкой и высокой мощностью.
Высокий спрос на суперконденсаторы: для каждой стойки NVL72 требуется более 300 суперконденсаторов для обработки мгновенных скачков тока и защиты системы. При цене $20-25 за штуку это представляет собой существенные расходы, но необходимо для энергоемкого GB300.
Большая революция памяти
LPCAMM выходит на серверную сцену: Впервые NVIDIA представила стандарт LPCAMM (Low Power CAMM) для серверных вычислительных плат. Ранее встречавшийся в легких ноутбуках, этот «малыш» теперь берет на себя высокие требования серверов, доказывая свои исключительные возможности. Внедрение LPCAMM в серверах предполагает тенденцию к тому, чтобы сделать их более «тонкими и изящными», намекая на возможный сдвиг в сторону более модного подхода в проектировании серверов.
Замена традиционных DIMM?: LPCAMM предлагает более компактное, энергоэффективное и простое в обслуживании решение. В будущем он может полностью заменить традиционные RDIMM и LRDIMM, что может привести к существенному потрясению на рынке серверной памяти. Если LPCAMM действительно заменит традиционные DIMM, это может ознаменовать собой серьезную трансформацию в ландшафте серверной памяти.
NVIDIA GB300 «Blackwell Ultra» призвана значительно поднять потолок вычислительной мощности ИИ. Улучшения в ядрах GPU, поддержка массивной памяти HBM3e и комплексные обновления в охлаждении и управлении питанием — все это указывает на то, что большие модели и крупномасштабные вычисления являются неудержимыми тенденциями будущего. Кроме того, с включением LPCAMM и пропускной способности сети 1.6T эффективность облачных центров обработки данных и суперкомпьютерных центров будет еще больше повышена.
Очевидно, что «гонка вооружений» для вычислительной мощности ИИ только начинается. Те, кто возглавит аппаратные и программные экосистемы, вполне могут доминировать в следующей волне революции ИИ.