Представляем архитектуру TPU от Google: оптическая коммутация цепей OCS – эволюционный механизм от куба 4x4x4 до Ironwood с 9216 чипами.

Чем выделяются кластеры TPU от Google в гонке суперкомпьютеров для искусственного интеллекта? Как сочетание 3D-топологии тора и технологии OCS (оптическая коммутация цепей) позволило добиться масштабируемости при сохранении низкой задержки и оптимальной общей стоимости владения (TCO)?

В этой подробной статье мы углубимся в эволюцию интеллектуальных вычислительных кластеров TPU от Google, сосредоточившись на синергетических механизмах 3D-топологий тора и технологии OCS. Начиная с наименьшей топологической единицы — куба 4x4x4 — мы воссоздадим стандартный 3D-тор в модуле TPUv4 4096 и скрученный 3D-тор в модуле TPUv7 9216. Мы сравним это с экономичной 2D-сеткой тора в TPUv5e/v6e, исследуем, как Google достигает детерминированной низкой задержки в масштабе десятков тысяч чипов, сравним с подходами AWS и NVIDIA и заглянем в будущее, рассматривая такие тенденции, как CPO (Co-Packaged Optics), обеспечивающая «излучение света на уровне чипа и полностью оптическое прямое соединение».

Содержание

01 Вступление: Краткий обзор эволюции суперузлов TPU

Ранее мы рассмотрели путь от TPUv1 (используемого в AlphaGo) до TPUv7 (суперузла Ironwood с 9216 чипами), работающего на базе OCS + ICI + 3D Torus и сопоставимого с NVIDIA GB200/GB300. Мы также сравнили ситуацию с Alibaba и NVIDIA, обсудив, кто действительно выигрывает в эпоху ИИ, продавая инструменты и добывая золото.

Теперь, опираясь на опубликованные Google статьи о том, как 48 блоков OCS поддерживают модуль TPUv4 с 4096 чипами, мы шаг за шагом рассмотрим все этапы: от кластера TPUv4 с 4096 чипами до новейшего кластера TPUv7 с 9216 чипами, подчеркнув эволюцию 2D/3D Torus + оптической коммутации OCS + сетей ICI, а также то, как зрелые восходящие/нисходящие цепочки поставок идеально дополняют это.

02 Основы: TPUv4 и реализация 3D-тора/OCS

Модуль TPUv4 с 4096 чипами — это знаковый продукт, демонстрирующий зрелое применение оптической коммутационной сети OCS от Google — один из немногих классических примеров, доступных в открытом доступе. Давайте начнем с самого маленького модуля и перейдем к полноценной кластерной архитектуре.

2.1 Наименьшая топологическая единица: куб 4×4×4

Минимальной топологической единицей в сети Google TPUv4 Pod является TPU Cube (или 4×4×4 Cube). Физически это часто серверный шкаф, но логически это тесно интегрированное целое:

  • Состав: 4 (X) × 4 (Y) × 4 (Z) = 64 чипа TPU, напоминающие цельный кубик Рубика четвертого порядка.
  • Соединения: Каждый чип TPU имеет 6 высокоскоростных межчиповых соединений (ICI) в направлениях ±X, ±Y, ±Z, образующих трехмерную тороидальную сетку.

2.2 Многоуровневая структура связей и оптико-электрические границы в одном кубе

В стандартном кубе 4×4×4 каналы ICI разделены на две категории в зависимости от положения и среды передачи, создавая уникальную гибридную оптико-электрическую сеть TPU:

  • Внутренние межсоединения (ядро куба): Внутренние соединения (ядро и неоткрытые поверхности) используют короткие объединительные платы и медные кабели для передачи исключительно электрической сигнализации — без оптического преобразования и оптического вывода.
  • Внешние межсоединения (поверхность куба): Открыты только каналы связи на шести внешних поверхностях, всего 96 оптических каналов на каждый куб, подключенных к OCS для динамической маршрутизации и масштабируемости.
Распределение логических и оптических интерфейсов для кубических соединений TPUv4 4x4x4
(Ссылка: Рисунок 1 – Распределение логических и оптических интерфейсов межсоединений куба TPUv4 4x4x4)
таблица 1
(Таблица 1: Расчет 96 оптических каналов связи в кубе TPUv4 4x4x4)

2.3 Создание 48 блоков OCS в кластере модулей TPUv4

Как видно из приведенных выше данных, каждый куб содержит 64 чипа. Для модуля с 4096 чипами: 4096 / 64 = 64 куба.

Общее количество оптических каналов: 64 куба × 96 каналов/куб = 6144 канала.

Система OCS Palomar от Google обычно имеет конфигурацию 136×136 портов, но спроектирована для 128 эффективных портов (бинарное выравнивание + 8 резервных портов). Таким образом: 6144 канала ÷ 128 портов/OCS = 48 блоков OCS.

Для строгого соответствия 3D-тору 48 OCS организованы в три ортогональные группы для трафика по осям X/Y/Z. Например, группа по оси X включает 16 OCS, каждая из которых обрабатывает только соединения граней ±X по всем кубам в соответствии с принципом «межсоединений в пределах одной размерности» — это обеспечивает ортогональную изоляцию, упрощает алгоритмы маршрутизации и предотвращает взаимоблокировки.

В 3D-торе OCS действует как массивная динамическая панель коммутации, физически реализуя геометрию тора. Данные, выходящие из интерфейса X+ узла, поступают в интерфейс X- соседнего узла (шаг 1 в стандартном TPUv4, переменное N в скрученном TPUv7). Краевые узлы замыкаются через OCS.

Топология ±X, ±Y, ±Z для 64 TPU в TPUv7
(Ссылка: Рисунок 2 – Топология ±X, ±Y, ±Z для 64 TPU в TPUv7)

2.4 Ядро модуля TPUv4: микроструктура Palomar OCS

В отличие от коммутаторов пакетной передачи без потерь, Palomar OCS не считывает заголовки и не выполняет преобразование O/E — это чисто физическое отражение света.

Внутренний канал имеет классическую W-образную форму, что минимизирует потери при передаче и обеспечивает возможность соединения «любой-любой».

Принцип оптического пути OCS W
(Ссылка: Рисунок 3 – Принцип оптического пути OCS «W»)

W-путь: Коллиматор > Дихроичное зеркало > 2D MEMS-массив I > Дихроичное зеркало > 2D MEMS-массив II > Дихроичное зеркало > Приемный коллиматор.

Ключевые компоненты: Двойные 2D MEMS-модули для 3D-управления лучом; дихроичные зеркала пропускают свет с длиной волны 1310 нм, отражая при этом контрольный свет с длиной волны 850 нм. В сочетании с модулями инжекции и камеры для оперативного управления и регулировки в реальном времени в пределах полосы пропускания, а также микросекундной регулировки MEMS-модулей, эта замкнутая система юстировки является ключевым препятствием для коммерциализации Palomar OCS.

03 Эволюция архитектуры: скрученный трехмерный тор и двумерный тор

С ростом TDP на одном чипе до 600 Вт и увеличением количества чипов в кластерах до 9,216, TPUv7 (Ironwood) сталкивается с более серьезными проблемами охлаждения и задержки. Google представила два основных обновления: скрученную топологию и экстремальное масштабируемое расширение.

3.1 Топология скрученного 3D-тора TPUv7 и вывод для 9216-чиповой архитектуры

Модуль TPUv7 масштабируется до 9216 чипов по сравнению с 4096 у TPUv4. Минимальный размер блока остается 4x4x4 куба (64 чипа): 9216 / 64 = 144 куба.

Общее количество соединений: 144 куба × 96 соединений/куб = 13 824 порта.

По имеющимся данным, Google по-прежнему использует 48 блоков OCS. (На рисунке 4 показано, как куб A разветвляет 96 каналов связи на 48 блоков OCS.)

Куб А разветвляется на 96 связей, образуя 48 OCS.

Для решения этой задачи OCS модернизировала систему, установив 144×144 порта (что соответствует 144 кубам; в реальности, вероятно, будет 320×320), с использованием витых 3D-тороидальных каналов связи на частоте 800 Гбит/с и пропускной способности 1.6 Тл для неблокирующей связи.

Улучшение топологии: вводится переменный шаг N для скрученного трехмерного тора с целью уменьшения количества переходов. Оптимальное значение N ≈ Dimension_Size / 2.

  • Слева: Стандартный двумерный тор (шаг = 1, последовательные переходы).
  • Справа: Искривлённый двумерный тор (шаг = N, прыжки через «червоточину» посредством OCS).
Сравнение стандартного и скрученного двумерного тора
(Ссылка: Рисунок 5 – Сравнение стандартного и скрученного двумерного тора)

Расширение до 3D: (На рисунке 6 показаны 128 соединений TPU-срезов (4x4x8), например, переход по оси Z от куба A к кубу B.)

128 срезов ТПУ

3.2 TPUv5e/v6e и 2D-сетка тора

Для задач инференции, чувствительных к задержке, и обучения в средних масштабах, в TPUv5e/v6e (Trillium) используется оптимизированная по стоимости конструкция: исключается дорогостоящая OCS, используется статическая 2D-сетка в форме тора.

Максимальное количество TPU в модуле — 256 (4 корпуса с жидкостным охлаждением в топологии 16×16). Вертикальное управление по оси Y осуществляется через печатную плату/заднюю панель; горизонтальное управление по оси X — через медные кабели QSFP-DD DAC, замыкающие петли длинными кабелями.

Пластина жидкостного охлаждения TPUv5e и схема расположения интерфейсов
(Ссылка: Рисунок 7 – Пластина жидкостного охлаждения TPUv5e и схема расположения интерфейсов)

04. Обзор отрасли: углубленное сравнение и проверка цепочки поставок.

4.1 Google (ICI) против AWS (Trainium) против NVIDIA

NVIDIA
(Таблица 2: Google TPU против AWS Trainium против NVIDIA H100/GB200)

4.2 Отраслевые барьеры: почему сложно воспроизвести модель Google?

Главное преимущество TPUv7 Pod — вертикальная интеграция от атомов до экосистемы:

  • Высокоточные MEMS-технологии в сочетании с замкнутым контуром управления выходят за рамки оптики, механики и полупроводников — задача, сложная для обычных производителей.
  • Эффективность 3D Torus основана на синергии Orion SDN и компилятора XLA для точного размещения/траектории.
  • Полный стек: Chip + PyTorch XLA/JAX + TF/JAX + Gemini + приложения для миллиарда пользователей — невоспроизводимый механизм обмена данными.

4.3 Цепочка поставок: Полная индустриализация экосистемы OCS

Недавние сообщения подтверждают развертывание Google OCS с использованием перекрестно проверенной цепочки поставок:

  • MEMS: Компания Silex Microsystems освоила технологию высокопроизводительных 2D MEMS-устройств.
  • Интеграция: Accelink (192×192), Dekoli в партнерстве с Lumentum для 320×320.
  • Оптика: Тэнцзин для дихроичных зеркал.
  • Модули: Coherent/Zhongji для 800G/1.6T.

Эта экосистема обеспечивает «оборудование как услугу» (HaaS): долгосрочный доступ к OCS в качестве инфраструктуры, снижающий общую стоимость владения.

05. Будущая эволюция: к оптической межсоединительной сети и полностью оптическим соединениям в эпоху после закона Мура.

По мере развития TPUv8 с поддержкой SerDes со скоростью 224 Гбит/с и выше, традиционные подключаемые оптические модули достигают своих пределов. CPO преодолеет границы возможностей ввода-вывода.

В будущем Google TPU может перейти к «излучению света на уровне чипа, полностью оптическому прямому»: световые модули, размещенные на подложке из TPU, с прямым оптическим выводом на высокоплотную объединительную плату OCS (320×320+).

В эпоху после теории общего интеллекта Мура: победит ли универсальный Ethernet/InfiniBand или вертикально интегрированная «закрытая экосистема» Google с использованием фотоники?

Какие аспекты развития сети TPU от Google вас больше всего интригуют — скрученный тор, уменьшающий задержку, зрелость цепочки поставок OCS или потенциальный переход к CPO? Как вы видите это в сравнении с конкурентами, такими как оптическая технология NVLink от NVIDIA? Поделитесь своими мыслями!

Наверх