Обзор
Искусственный интеллект (ИИ), несомненно, стал центральной темой в области информационных технологий, привлекая всеобщее внимание беспрецедентными темпами за последние три десятилетия. Это утверждение подтверждается опросом Futurum Group, в котором приняли участие более 100 директоров по информационным технологиям (CIO) из компаний из списка Fortune 500 и Global 2000. Согласно результатам, почти 80% респондентов в настоящее время реализуют пилотные программы ИИ. Кроме того, исследование показало, что более 50% этих руководителей ИТ считают внедрение новых технологий, таких как ИИ, своей самой важной задачей. Кроме того, модернизация, инновации и внедрение ИИ неизменно входят в пятерку основных факторов, влияющих на решения о закупках ИТ.

В этой статье подробно анализируется ускоритель ИИ Intel® Gaudi® 2 и его потенциальное влияние на предприятия. В исследовании сравнивается производительность ускорителя ИИ Intel® Gaudi® 3 с производительностью ведущего конкурента во время тестов рабочей нагрузки вывода. Эти тесты были сосредоточены на двух различных больших языковых моделях (LLM) Llama 3.1. Чтобы предоставить ИТ-специалистам и руководителям предприятий практические и действенные идеи, была разработана специализированная платформа тестирования ИИ для запуска и измерения производительности рабочей нагрузки ИИ. Это исследование проводилось в сотрудничестве с Kamiwaza (https://www.kamiwaza.ai/), коммерческой платформой вывода ИИ. Вместе мы разработали набор для тестирования ИИ, использующий стек Kamiwaza, способный точно измерять производительность вывода LLM ИИ на различных аппаратных и программных платформах.
Ключевые результаты:
- В серии тестов вывода LLM видеокарта Intel Gaudi 3 продемонстрировала производительность, сопоставимую с Nvidia H100.
- Производительность Intel Gaudi 3 относительно H100 варьировалась от 15% ниже до 30% выше в зависимости от сценария.
- Intel Gaudi 3 превзошла H100 в сеансах вывода с небольшими входными данными и большими выходными данными, тогда как Nvidia преуспела в сеансах с большими входными данными и малыми выходными данными.
- При учете стоимости Intel Gaudi 3 обеспечивает более высокую рабочую нагрузку на доллар по сравнению с Nvidia H100, преимущество составляет от 10% до 2.5x.
Корпоративный ландшафт искусственного интеллекта
Хотя за последний год ИИ стал фокусом для многих компаний, большинство предприятий все еще находятся на ранних стадиях применения ИИ. Поскольку компании приступают к пилотным проектам, они в первую очередь сосредотачиваются на использовании корпоративных данных и других источников знаний для улучшения существующих фундаментальных больших языковых моделей (LLM) для производственных сред.
Опасения по поводу конфиденциальности данных и управления остаются значительными, что является одной из причин, по которой многие компании, в дополнение к принятию облачных решений, изучают локальное развертывание инструментов ИИ. Сохранение контроля над наборами данных для обучения и вывода во время выполнения, а также создание эффективных структур управления и этических практик ИИ требуют большего контроля над данными, цепочками инструментов и инфраструктурой. В то время как выводы сеансов с одним взаимодействием могут быть достигнуты с минимальным оборудованием, для крупномасштабных развертываний обычно требуются аппаратные ускорители, особенно при использовании таких методов, как генерация дополненной извлечения (RAG). Поэтому предприятиям следует тщательно оценивать цену и производительность своих рабочих нагрузок вывода при выборе ускорителей ИИ, поскольку это напрямую влияет на общую окупаемость инвестиций (ROI) после того, как приложения ИИ достигают стадии производства.
Вывод LLM
Процесс получения полезных результатов от обучающих моделей с использованием LLM называется выводом. Вывод LLM обычно состоит из двух этапов: предварительного заполнения и декодирования. Эти два этапа работают в тандеме для генерации ответов на входные подсказки.
Во-первых, этап предварительного заполнения преобразует текст в представления ИИ, известные как токены. Этот процесс токенизации обычно происходит на ЦП, а затем токены отправляются на ускоритель ИИ для генерации выходных данных и выполнения декодирования. Модель продолжает итеративно выполнять этот процесс, причем каждый новый токен влияет на генерацию следующего токена. В конечном итоге, в конце этого процесса сгенерированная последовательность преобразуется обратно из токенов в читаемый текст. Основными инструментами, используемыми для этого процесса, являются специализированные программные стеки, оптимизированные для вывода. Некоторые типичные примеры включают проект с открытым исходным кодом vLLM, TGI от Hugging Face и специализированные версии для определенных ускорителей ИИ. Nvidia предлагает оптимизированный стек вывода под названием TensorRT-LLM, в то время как Intel предоставляет оптимизированный программный стек, известный как Optimum Habana.
Сопоставление тестовых случаев с корпоративными приложениями
Наше тестирование фокусируется на четырех различных комбинациях или шаблонах рабочей нагрузки, характеризующихся размером входных и выходных токенов. Как правило, эти комбинации направлены на имитацию различных реальных сценариев, с которыми предприятия могут столкнуться во время производственных развертываний. При фактическом использовании размер входных и выходных токенов может не совпадать точно с какой-либо одной комбинацией, поскольку их диапазон довольно широк. Однако эти четыре комбинации предназначены для иллюстрации потенциальных сценариев.
Обычно сценарии ввода с небольшими токенами соответствуют кратким командам ввода, не имеющим обширного контекста, таким как интерактивный чат. Использование генерации с расширенным поиском (RAG) добавляет существенный контекст и токены к вводу, что приводит к более длинным входным токенам и более коротким выходным токенам во время сеансов чата. При итеративной оптимизации для создания контента или написания документов/кода с помощью RAG рабочие нагрузки генерируются с длинными входными и выходными токенами. Наш анализ общих сценариев показывает, что сочетание длинноконтекстных входов и выходов является наиболее вероятным сценарием, в то время как сеансы чата без RAG являются наименее вероятными. Оставшиеся два сценария представляют другие возможные варианты использования. Оценочные проценты основаны на обсуждениях с клиентами и нашем собственном опыте работы с LLM.

Таблица 1: Типы рабочей нагрузки вывода и их пропорции
Как показано в Таблице 1, два сценария с более длительным выводом совместно составляют 65% от общего использования, в то время как два сценария с более коротким выводом представляют оставшиеся 35%. Это различие имеет решающее значение, поскольку Intel Gaudi 3 работает лучше, чем Nvidia H100 при обработке рабочих нагрузок с более крупными выходными токенами. Более того, для наиболее распространенных рабочих нагрузок на предприятиях ускоритель Gaudi 3 демонстрирует преимущества в производительности по сравнению с Nvidia H100. Далее мы представим подробные результаты этих рабочих нагрузок и приведем соответствующие сравнения цены и производительности.
Обзор теста вывода ИИ
Для эффективной обработки входных данных и отправки их в ускорители ИИ программное обеспечение вывода преобразует входные данные в токены, а затем отправляет эти токены пакетами, чтобы повысить общую скорость обработки токенов.
Как упоминалось ранее, доступно несколько стеков вывода LLM. Наши рассмотренные структуры вывода включают следующее:
- TGI: Подходит для H100 и Gaudi 3
- vLLM: Подходит для H100 и Gaudi 3
- Nvidia H100: стек вывода TensorRT-LLM от Nvidia
- Intel Gaudi 3: оптимальный стек вывода Habana
Примечание: Мы подобрали оптимальное решение для каждого ускорителя. Для тестов Nvidia H100 мы использовали TensorRT-LLM, а для тестов Intel Gaudi 3 — Optimum Habana.

Как показано на рисунке 1, тестовый набор Signal65/Kamiwaza AI может тестировать производительность вывода различных моделей LLM на нескольких графических процессорах и опционально поддерживать несколько узлов. Аппаратное обеспечение, используемое для вывода, не имеет значения при отправке запросов. Эти фреймворки являются просто базовыми инструментами. Signal65/Kamiwaza Bench предоставляет инструменты автоматизации и функции бенчмаркинга, поддерживая весь процесс бенчмаркинга от конфигурации пакетного эксперимента до автоматизированного выполнения, регистрации, оценки и визуализации.
Наша методология тестирования включала сравнение производительности вывода двух аппаратных ускорителей ИИ с использованием двух различных моделей больших языков с открытым исходным кодом. Для тестов одного ускорителя ИИ мы выбрали модель Llama 3.1 8B, которая может полностью поместиться в объем памяти одного ускорителя с 48 ГБ или более. Чтобы полностью использовать систему сервера с восемью картами, мы использовали модель Llama 3.1 70B и распределили ее по восьми ускорителям во время тестов вывода. Все выводы проводились в пакетном режиме для максимизации пропускной способности ускорителя. Наши тесты в основном проводились при размерах данных «полного веса» или FP16 без использования методов квантования. Мы сосредоточились на воспроизведении общих сценариев и в основном тестировали модели полного веса, поскольку эти модели обычно обеспечивают значительно лучшие результаты, т. е. более высокую точность, по сравнению с моделями, использующими размеры квантованных данных. Для моделей 8B и 70B мы протестировали различные размеры входных и выходных токенов. Для простоты мы представляем только четыре комбинации. Во всех случаях размеры входных и выходных данных выражаются в формате (вход/выход).
анализ затрат
Чтобы провести сравнение цены и производительности, мы собрали данные о ценах двух конкурирующих решений.
Во-первых, мы получили расценки на конфигурацию от общедоступного реселлера Thinkmate.com, который предоставил подробные данные о ценах на сервер GPU, оснащенный 8 графическими процессорами Nvidia H100. Конкретная информация приведена в Таблице 2. Кроме того, мы использовали данные о ценах, опубликованные Intel для ускорителя Gaudi 3, который, по сообщениям нескольких источников, имеет «рекомендуемую розничную цену в 125,000 3 долларов США». Мы построили цену системы на основе базовой цены системы Gaudi 20-XH32,613.22 (8 3 долларов США), затем добавили заявленную стоимость 125,000 ускорителей Intel Gaudi 157,613.22 (8 100 долларов США), чтобы получить общую цену системы в 300,107.00 XNUMX долларов США. Для сравнения, идентичная система, оснащенная XNUMX графическими процессорами Nvidia HXNUMX, стоит XNUMX XNUMX долларов США.
Расчет цены

Таблица 2: Подробные цены на серверы H100 и Gaudi 3 AI по состоянию на 10 января 2025 г.
Сравнение производительности
Термин «производительность» имеет решающее значение в этом контексте, поскольку он применяется к двум совершенно разным методам измерения ускорителей ИИ. Одной из мер производительности является точность результатов, ключевой фактор, иногда называемый «производительностью модели». Однако фокус нашей экспериментальной проверки — не точность. Вместо этого мы описываем производительность, измеряя скорость обработки токенов, выраженную как количество токенов, обработанных в секунду, чтобы определить скорость обработки токенов решения.
Кроме того, чтобы гарантировать, что более высокие скорости обработки токенов не повлияют на точность модели, мы использовали несколько известных тестов для измерения точности модели обоих ускорителей. Результаты не показывают существенных различий в точности между Intel Gaudi 3 и Nvidia H100. Хотя сообщаемая точность немного различается, эти различия попадают в наш диапазон погрешности измерения. Результаты точности приведены в приложении.
Сравнение квантованных моделей
Начнем с возможно менее распространенного варианта использования, хотя эти результаты часто цитируются из-за их более высокой пропускной способности по сравнению с моделями вывода типа «полный вес» или FP16. В следующих результатах используется меньший размер «квантованных» данных FP8, что обеспечивает более высокую производительность вывода за счет качества модели и результата. Эти результаты актуальны для определенных пользователей и представлены как таковые.

Рисунок 2: Сравнение производительности вывода с 8-битным типом данных FP8
На рисунке выше «1 x FP8» указывает на использование одной карты ускорителя, а вывод основан на типе данных FP8. Эти результаты подчеркивают преимущество Nvidia H100, поддерживающей квантованный тип данных FP8, в скорости вывода по сравнению с ускорителем Intel Gaudi 3. Однако, несмотря на то, что H100 оптимизирован для типа данных FP8, результаты Gaudi 3 остаются довольно близкими к H100.

Рисунок 3: Скорость обработки токенов на единицу стоимости с 8-битным типом данных FP8
Как показано на рисунке 3, при оценке количества обработанных токенов на единицу стоимости (чем больше токенов, тем лучше) мы обнаруживаем, что Gaudi 3 от Intel обеспечивает лучшие результаты во всех четырех комбинациях рабочих нагрузок. Например, при 128 входных токенах и 128 выходных токенах (самая левая гистограмма на рисунке 2) в сочетании с данными о стоимости из таблицы 1 мы получаем следующие расчеты:
- Nvidia H100: производительность 128/128 = (26,933 300,107.00 токенов/сек) / 0.089744 8.97 долл. США = XNUMX (переведено в процентную форму как XNUMX%)
- Gaudi 3: производительность 128/128 = (23,099 157,613.22 токенов/сек) / 0.1466 14.66 долл. США = XNUMX (переведено в процентную форму как XNUMX%)
Выступление ламы в полном весе
На рисунке 4 мы сравниваем производительность ускорителя Nvidia H100 80 ГБ и ускорителя Intel Gaudi 3, использующих один ускоритель и 16-битный тип данных для запуска Llama 3.1 8B LLM. Примечательно, что Nvidia использует «FP16», а Intel использует «BF16», оба эквивалентны по точности, но немного отличаются по представлению. Как показано, Gaudi 3 работает лучше в рабочих нагрузках с меньшими соотношениями ввода-вывода, тогда как H100 немного превосходит в рабочих нагрузках с большими соотношениями ввода-вывода.

Рисунок 4: Llama 8B – Сравнение производительности одного ускорителя (16 бит)
Далее мы оцениваем производительность ускорителей ИИ в тех же четырех сценариях рабочей нагрузки, используя более крупную модель Llama 3.1 70B. Из-за требований к памяти эта модель требует для работы нескольких ускорителей. На рисунке 5 мы представляем производительность 8 ускорителей, сравнивая Nvidia H100 и Intel Gaudi 3. Метка «(8 x 16bit)» указывает на использование 8 ускорителей с типом данных FP16 или BF16.

Рисунок 5: Llama 70B – Сравнение производительности 8 ускорителей (16 бит)
Результаты снова показывают, что Nvidia демонстрирует немного лучшие результаты в рабочих нагрузках с более высоким соотношением ввода-вывода.
Сравнение производительности и стоимости
Как упоминалось ранее, одним из наиболее важных соображений для многих компаний при выборе ускорителей ИИ является соотношение между скоростью обработки токенов и стоимостью. В этом исследовании соотношение производительности и стоимости выражается как количество обработанных токенов на единицу стоимости (токены/секунда/USD).
Во-первых, на рисунке 6 мы анализируем результаты запуска модели Llama 3.1 8B с использованием одного ускорителя, включая факторы стоимости. Результаты представлены как количество обработанных токенов на единицу стоимости (т. е. токенов, обработанных в секунду/USD). Таким образом, чем выше значение, тем лучше, указывая на большее количество обработанных токенов на единицу стоимости.

Рисунок 6: Llama 8B – Сравнение скорости обработки токенов одного ускорителя на доллар (16 бит)
Далее, Рисунок 7 показывает производительность на единицу стоимости при запуске более крупной модели Llama 3.1 70B с использованием нескольких ускорителей. Как и прежде, эта рабочая нагрузка выполняется с полной 16-битной точностью на 8 ускорителях ИИ.

Рисунок 7: Llama 70B – 8 ускорителей Скорость обработки токенов на доллар Сравнение (16 бит)
Резюме производительности
Как показывают несколько точек данных, с точки зрения производительности Nvidia H100 и Intel Gaudi 3 обеспечивают схожие скорости вывода на тестируемом наборе рабочей нагрузки Llama 3.1. В некоторых случаях Nvidia имеет небольшое преимущество, в то время как в других случаях Intel Gaudi 3 работает лучше.
Согласно нашим данным о ценах, Gaudi 3 от Intel обеспечивает на 10% более высокую производительность на единицу стоимости по сравнению с Nvidia H100, а в некоторых случаях — до 2.5 раз. Предприятия быстро разрабатывают приложения для повышения производительности с помощью ИИ. По мере того, как приложения с улучшенным ИИ становятся все более распространенными, конкурентное давление сместится с простого наличия операционных приложений ИИ на дифференциацию на основе качества и экономической эффективности. На сегодняшний день большая часть отчетов и шумихи в области ИИ была сосредоточена на гипермасштабных развертываниях и тысячах ускорителей ИИ, используемых для разработки и обучения новейших моделей ИИ. Хотя гипермасштабные компании имеют ресурсы для таких начинаний, для большинства предприятий нецелесообразно и невыгодно разрабатывать и обучать базовые модели Transformer или Diffusion. Более того, основным вариантом использования для предприятий будет производственное развертывание, выполнение рабочих нагрузок вывода. Наше использование набора тестов Signal65 для изучения этих рабочих нагрузок направлено на предоставление содержательной информации о показателях производительности и экономической эффективности, помогая старшим руководителям предприятий принимать обоснованные решения о закупках платформ вывода ИИ. Хотя Nvidia H100 может иметь небольшое преимущество в производительности по сравнению с ускорителями ИИ Intel Gaudi 3, при рассмотрении разницы в стоимости Gaudi 3 от Intel демонстрирует значительное преимущество в экономической эффективности для различных рабочих нагрузок вывода, которые мы представили.