Технология охлаждения следующего поколения для ускоренных вычислений от NVIDIA

Революция центров обработки данных в эпоху искусственного интеллекта

Глубокая интеграция искусственного интеллекта, ускоренных вычислений и центров обработки данных открывает то, что можно назвать третьей научной революцией. Современные модели ИИ растут в сложности экспоненциально, требуя увеличения вычислительной мощности на несколько порядков для обучения моделей, содержащих сотни миллиардов параметров. Эти достижения имеют решающее значение для таких передовых областей, как вычислительная гидродинамика, моделирование климата и геномное секвенирование.

Балансировка распределения воздушного потока в центре обработки данных и температура возвратного воздуха в CRAH
Балансировка распределения воздушного потока в центре обработки данных и ограничения температуры возвратного воздуха в CRAH

Эволюция центров обработки данных

  • Selene 2021: эта система использовала 4,480 графических процессоров A100 для достижения вычислительной производительности 3 эксафлопс.
  • EOS 2023: эта конфигурация, обновленная и включающая 10,752 100 графических процессора H10, преодолела порог в XNUMX эксафлопс.
  • Фабрика искусственного интеллекта нового поколения: планы включают развертывание 32,000 645 графических процессоров Blackwell, которые обеспечат вычислительную мощность 58,000 эксафлопс и расширенную пропускную способность XNUMX XNUMX ТБ/с.

Этот резкий прогресс привел к появлению нового поколения «фабрик ИИ», которые используют кластеры графических процессоров высокой плотности для выполнения крупномасштабных вычислений ИИ в реальном времени, тем самым внося преобразующие изменения в модель аренды вычислительных ресурсов.

Ограничения традиционных решений охлаждения

В настоящее время в центрах обработки данных в основном используются три решения по воздушному охлаждению:

Системы CRAC/CRAH с воздушным охлаждением

  • Применимый сценарий: стойки с низкой плотностью размещения (менее 5 кВт).
  • Архитектурные характеристики: Эти системы основаны на централизованном охлаждении на уровне центра обработки данных с использованием подачи воздуха под полом.
  • Ограничения по энергоэффективности: показатели эффективности использования энергии (PUE) обычно превышают 1.5.

Внутрирядные охладители

  • Применимый сценарий: Стойки средней плотности (от 5 до 15 кВт).
  • Технические характеристики: Создавая отдельные горячие и холодные коридоры, эти системы используют теплообменники на уровне рядов для более эффективного рассеивания тепла.
  • Расходы на модернизацию: часто требуют значительных изменений в существующей инфраструктуре центра обработки данных.

Теплообменники задней панели

  • Инновационный аспект: модуль охлаждения напрямую интегрирован в объединительную плату серверной стойки и поддерживает горячую замену компонентов.
  • Ограничение: этот метод позволяет рассеивать только до 20 кВт на стойку.
Балансировка распределения воздушного потока в центре обработки данных и ограничения температуры возвратного воздуха в CRAH.
Балансировка распределения воздушного потока в центре обработки данных и ограничения температуры возвратного воздуха в CRAH.

Развитие технологии жидкостного охлаждения

Учитывая проблемы, связанные с кластерами GPU, работающими на пропускной способности сети 800 Гбит/с и с энергопотреблением, превышающим 800 Вт, традиционные методы воздушного охлаждения достигли своих физических пределов. В ответ NVIDIA представила три основных жидкостное охлаждение решения:

Боковое охлаждение жидкость-воздух (L2A)

  • Переходный подход: это решение разработано с учетом совместимости с существующими центрами обработки данных с воздушным охлаждением.
  • Технические характеристики: В пространстве высотой 2U он может обеспечить мощность охлаждения 60 кВт.
  • Энергоэффективность: Потребляемая мощность этого метода охлаждения составляет всего 4% от общей холодопроизводительности.

Система CDU «жидкость-жидкость» (L2L)

  • Революционный прорыв: в пространстве высотой 4U эта система достигает охлаждающей мощности 2 МВт.
  • Пространственная эффективность: в 6.5 раз более энергоэффективно, чем традиционные блоки CRAC.
  • Эксплуатационные преимущества: Конструкция с однофазным потоком значительно снижает риск утечки.

Жидкостное охлаждение непосредственно на кристалле (DLC)

  • Окончательное решение: этот метод использует микроканальное охлаждение на уровне чипа.
  • Производительность: поддерживает конфигурации сверхвысокой плотности с возможностью рассеивания более 160 кВт на стойку.
  • Устойчивость: Система может достичь PUE менее 1.05.
Охлаждаемый центр обработки данных L2A
Охлаждаемый центр обработки данных L2A

Цифровой двойник и интеллектуальные операции

Используя платформу Omniverse, цифровые двойники центров обработки данных создаются для того, чтобы обеспечить:

  • Моделирование в реальном времени: интеграция вычислительной гидродинамики (CFD) с физико-информированными нейронными сетями (PINN) позволяет делать точные прогнозы термодинамического поведения.
  • Моделирование отказов: можно моделировать и оценивать экстремальные сценарии, такие как отключения электроэнергии и утечки.
  • Интеллектуальное регулирование: динамическое распределение потока управляется с помощью алгоритмов обучения с подкреплением.
Вывод термогидродинамики в режиме реального времени в POD с использованием NVIDIA Modulus и Omniverse.
Вывод термогидродинамики в режиме реального времени в POD с использованием NVIDIA Modulus и Omniverse.
Ключевые технические показатели эффективности
Ключевые технические показатели эффективности

Передовые направления исследований

Разработка новых охлаждающих агентов

  • Наножидкости: включение углеродных нанотрубок для улучшения теплопроводности.
  • Экологичные хладагенты: разработка хладагентов с потенциалом глобального потепления (ПГП) менее 1, которые не способствуют разрушению озонового слоя.
  • Биомиметический дизайн: оптимизация потока в микроканалах путем копирования структуры кожи акулы.

Структура проверки надежности

  • Испытание на коррозионную стойкость: применение стандартов ASTM для оценки коррозионной стойкости медных труб.
  • Контроль биологического загрязнения: создание прогностических моделей роста анаэробных бактерий.
  • Эксперименты по гидродинамике: использование испытательных платформ, имитирующих высокоскоростной сброс со скоростью 6.5 м/с.
Герметичные стеклянные банки. Хранятся в камере искусственного климата.

Инициативы устойчивого развития

Проекты по утилизации отходящего тепла

  • В сотрудничестве с Массачусетским технологическим институтом (MIT) разрабатываются адсорбционные охлаждающие установки, которые позволят перерабатывать около 15% отработанного тепла, вырабатываемого ИТ-оборудованием.
  • Цель: создать экосистему с нулевым выбросом углерода для центров обработки данных.

Программа ARPA-E COOLERCHIPS

  • Программа получила 5 миллионов долларов от правительства США в рамках общего объема финансирования в 40 миллионов долларов.
  • Основные цели: Достичь PUE менее 1.05; Достичь плотности мощности более 160 кВт на стойку; Использовать контейнерные развертывания, соответствующие размерам 40-футовых контейнеров стандарта ISO.
Программа ARPA-E COOLERCHIPS

Будущие перспективы

Ожидается, что с массовым производством суперчипов Grace Hopper центры обработки данных будут развиваться по трем основным траекториям:

  • Широкое внедрение жидкостного охлаждения: ожидается, что к 2025 году серверы с жидкостным охлаждением составят более 30% всех развертываний.
  • Периферийный интеллект: Мини-узлы жидкостного охлаждения, как предполагается, будут использоваться в базовых станциях 5G.
  • Энергетическая автономность: центры обработки данных, использующие жидкостное охлаждение, в конечном итоге будут работать на 100% возобновляемой энергии.

Эта тихая революция в технологии охлаждения меняет фундаментальную архитектуру цифровой инфраструктуры. Она сигнализирует о будущем, в котором вычисления не только более эффективны и интеллектуальны, но и более экологичны и устойчивы.

Воздушное охлаждение Цифровой двойник
Воздушное охлаждение Цифровой двойник

Оставьте комментарий

Наверх