Intel Gaudi 3 vs. Nvidia H100: Análise comparativa de preço e desempenho de inferência de IA empresarial

Visão geral

A Inteligência Artificial (IA) sem dúvida se tornou um tópico central no campo da tecnologia da informação, cativando a atenção generalizada em um ritmo sem precedentes nas últimas três décadas. Essa afirmação é apoiada por uma pesquisa do Futurum Group envolvendo mais de 100 Chief Information Officers (CIOs) de empresas Fortune 500 e Global 2000. De acordo com os resultados, quase 80% dos entrevistados estão atualmente executando programas piloto de IA. Além disso, o estudo identificou que mais de 50% desses líderes de TI veem a implementação de tecnologias emergentes, como IA, como seu desafio mais significativo. Além disso, modernização, inovação e adoção de IA estão consistentemente classificadas entre os cinco principais fatores que influenciam as decisões de aquisição de TI.

Inteligência Artificial (IA)

Este artigo se aprofunda em uma análise aprofundada do acelerador de IA Intel® Gaudi® 2 e seu impacto potencial nas empresas. O estudo contrasta o desempenho do acelerador de IA Intel® Gaudi® 3 com o de um concorrente líder durante testes de carga de trabalho de inferência. Esses testes se concentraram em dois modelos de linguagem grande (LLMs) Llama 3.1 distintos. Para fornecer aos executivos de TI e negócios insights práticos e acionáveis, uma plataforma de teste de IA especializada foi desenvolvida para executar e medir o desempenho da carga de trabalho de IA. Esta pesquisa foi conduzida em colaboração com a Kamiwaza (https://www.kamiwaza.ai/), uma plataforma comercial de inferência de IA. Juntos, projetamos um conjunto de testes de IA aproveitando a pilha Kamiwaza, capaz de medir com precisão o desempenho de inferência de LLMs de IA em várias plataformas de hardware e software.

Principais conclusões:

  • Em uma série de testes de inferência LLM, o Intel Gaudi 3 demonstrou desempenho comparável ao Nvidia H100.
  • O desempenho do Intel Gaudi 3 em relação ao H100 variou, de 15% menor a 30% maior, dependendo do cenário.
  • O Intel Gaudi 3 superou o H100 em sessões de inferência com pequenas entradas e grandes saídas, enquanto a Nvidia se destacou em sessões envolvendo grandes entradas e pequenas saídas.
  • Ao considerar o custo, o Intel Gaudi 3 obteve uma carga de trabalho maior por dólar em comparação ao Nvidia H100, com uma vantagem variando de 10% a 2.5x.

Cenário de IA empresarial

Embora a IA tenha se tornado um ponto focal para muitas empresas no ano passado, a maioria das empresas ainda está nos estágios iniciais da aplicação da IA. À medida que as empresas embarcam em projetos piloto, elas se concentram principalmente em alavancar dados empresariais e outras fontes de conhecimento para aprimorar os modelos de linguagem de grande porte (LLMs) fundamentais existentes para ambientes de produção.

Preocupações com privacidade e governança de dados continuam significativas, o que é um dos motivos pelos quais muitas empresas, além de adotar soluções em nuvem, estão explorando a implantação de ferramentas de IA localmente. Manter o controle sobre dados de treinamento e conjuntos de dados de inferência de tempo de execução, bem como estabelecer estruturas de governança eficazes e práticas éticas de IA, exige maior controle sobre dados, cadeias de ferramentas e infraestrutura. Embora inferências de sessão de interação única possam ser obtidas com hardware mínimo, implantações em larga escala normalmente exigem aceleradores de hardware, especialmente ao utilizar técnicas como geração aumentada de recuperação (RAG). Portanto, as empresas devem avaliar cuidadosamente o preço e o desempenho de suas cargas de trabalho de inferência ao selecionar aceleradores de IA, pois isso impacta diretamente o retorno geral sobre o investimento (ROI) quando os aplicativos de IA atingem o estágio de produção.

Inferência LLM

O processo de geração de resultados úteis a partir de modelos de treinamento usando LLMs é conhecido como inferência. A inferência LLM normalmente consiste em dois estágios: pré-preenchimento e decodificação. Esses dois estágios trabalham em conjunto para gerar respostas a prompts de entrada.

Primeiro, o estágio de pré-preenchimento converte texto em representações de IA, conhecidas como tokens. Esse processo de tokenização geralmente ocorre na CPU, e os tokens são então enviados ao acelerador de IA para gerar saída e executar decodificação. O modelo continua a executar iterativamente esse processo, com cada novo token influenciando a geração do próximo token. Por fim, no final desse processo, a sequência gerada é convertida de volta de tokens para texto legível. As principais ferramentas usadas para esse processo são pilhas de software especializadas otimizadas para inferência. Alguns exemplos típicos incluem o projeto de código aberto vLLM, o TGI da Hugging Face e versões especializadas para aceleradores de IA específicos. A Nvidia oferece uma pilha de inferência otimizada chamada TensorRT-LLM, enquanto a Intel fornece uma pilha de software otimizada conhecida como Optimum Habana.

Mapeando casos de teste para aplicativos corporativos

Nossos testes focam em quatro combinações distintas ou padrões de carga de trabalho caracterizados pelo tamanho dos tokens de entrada e saída. Geralmente, essas combinações visam simular diferentes cenários do mundo real que as empresas podem encontrar durante implantações de produção. No uso real, o tamanho dos tokens de entrada e saída pode não se alinhar precisamente com nenhuma combinação única, pois seu alcance é bastante amplo. No entanto, essas quatro combinações são projetadas para ilustrar cenários potenciais.

Normalmente, cenários de entrada de token pequeno correspondem a comandos de entrada breves sem contexto extenso, como bate-papo interativo. Usar geração aumentada de recuperação (RAG) adiciona contexto e tokens substanciais à entrada, resultando em tokens de entrada mais longos e tokens de saída mais curtos durante sessões de bate-papo. Na otimização iterativa para criação de conteúdo ou escrita de documento/código com RAG, as cargas de trabalho são geradas com tokens de entrada e saída longos. Nossa análise de cenários comuns indica que a combinação de entradas e saídas de contexto longo é o cenário mais provável, enquanto sessões de bate-papo sem RAG são as menos prováveis. Os dois cenários restantes representam outros casos de uso possíveis. As porcentagens estimadas são baseadas em discussões com clientes e em nossa própria experiência com LLMs.

Tipos de carga de trabalho de inferência e suas proporções

tabela 1: Tipos de carga de trabalho de inferência e suas proporções

Conforme mostrado na Tabela 1, os dois cenários com saída mais longa respondem conjuntamente por 65% do uso total, enquanto os dois cenários com saída mais curta representam os 35% restantes. Essa distinção é crucial, pois o Intel Gaudi 3 tem melhor desempenho do que o Nvidia H100 ao lidar com cargas de trabalho com tokens de saída maiores. Além disso, para as cargas de trabalho mais comuns em empresas, o acelerador Gaudi 3 demonstra vantagens de desempenho sobre o Nvidia H100. A seguir, apresentaremos os resultados detalhados dessas cargas de trabalho e forneceremos comparações de preço/desempenho correspondentes.

Revisão do teste de inferência de IA

Para processar dados de entrada com eficiência e enviá-los aos aceleradores de IA, o software de inferência converte os dados de entrada em tokens e, em seguida, envia esses tokens em lotes para melhorar a taxa geral de processamento de tokens.

Conforme mencionado anteriormente, várias pilhas de inferência LLM estão disponíveis. Nossas estruturas de inferência pesquisadas incluem o seguinte:

  • TGI: Adequado para H100 e Gaudi 3
  • vLLM: Adequado para H100 e Gaudi 3
  • Nvidia H100: pilha de inferência TensorRT-LLM da Nvidia
  • Intel Gaudi 3: pilha de inferência Habana ideal

Nota: Selecionamos a solução ótima para cada acelerador. Para os testes do Nvidia H100, usamos o TensorRT-LLM, e para os testes do Intel Gaudi 3, usamos o Optimum Habana.

Teste de IA Kamiwaza

Conforme mostrado na Figura 1, o conjunto de testes Signal65/Kamiwaza AI pode testar o desempenho de inferência de diferentes modelos LLM em várias GPUs e, opcionalmente, oferecer suporte a vários nós. O hardware usado para inferência é irrelevante ao enviar solicitações. Essas estruturas são apenas ferramentas básicas. O Signal65/Kamiwaza Bench fornece ferramentas de automação e recursos de benchmarking, dando suporte a todo o processo de benchmarking, desde a configuração do experimento em lote até a execução automatizada, registro, pontuação e visualização.

Nossa metodologia de teste envolveu a comparação do desempenho de inferência de dois aceleradores de IA de hardware usando dois modelos de linguagem grande de código aberto diferentes. Para testes de acelerador de IA único, escolhemos o modelo Llama 3.1 8B, que pode se encaixar totalmente na capacidade de memória de um único acelerador com 48 GB ou mais. Para utilizar totalmente um sistema de servidor de oito placas, usamos o modelo Llama 3.1 70B e o distribuímos em oito aceleradores durante os testes de inferência. Todas as inferências foram conduzidas em modo de lote para maximizar o rendimento do acelerador. Nossos testes foram realizados principalmente em tamanhos de dados de "peso total" ou FP16, sem usar técnicas de quantização. Nós nos concentramos em replicar cenários comuns e testamos principalmente modelos de peso total porque esses modelos normalmente fornecem resultados significativamente melhores, ou seja, maior precisão, em comparação com modelos que usam tamanhos de dados quantizados. Para os modelos 8B e 70B, testamos vários tamanhos de token de entrada e saída. Para simplificar, apresentamos apenas quatro combinações. Em todos os casos, os tamanhos de entrada e saída são expressos no formato (entrada/saída).

Análise de Custo

Para fornecer uma comparação de preço e desempenho, coletamos dados de preços para duas soluções concorrentes.

Primeiramente, obtivemos orçamentos de configuração do revendedor acessível publicamente Thinkmate.com, que forneceu dados detalhados de preços para um servidor GPU equipado com 8 GPUs Nvidia H100. Informações específicas são mostradas na Tabela 2. Além disso, usamos os dados de preços divulgados pela Intel para o acelerador Gaudi 3, relatado por várias fontes como tendo um "preço de varejo sugerido de US$ 125,000". Construímos um preço de sistema com base no preço base do sistema Gaudi 3-XH20 (US$ 32,613.22) e, em seguida, adicionamos o custo relatado de 8 aceleradores Intel Gaudi 3 (US$ 125,000) para chegar a um preço total do sistema de US$ 157,613.22. Em comparação, um sistema idêntico equipado com 8 GPUs Nvidia H100 custa US$ 300,107.00.

Cálculo de preço

Preços detalhados dos servidores H100 e Gaudi 3 AI em 10 de janeiro de 2025

Tabela 2: Preços detalhados dos servidores H100 e Gaudi 3 AI em 10 de janeiro de 2025.

Comparação de desempenho

O termo “desempenho” é crucial neste contexto, pois se aplica a dois métodos de medição de acelerador de IA totalmente diferentes. Uma medida de desempenho é a precisão dos resultados, um fator-chave às vezes chamado de “desempenho do modelo”. No entanto, o foco da nossa validação experimental não é a precisão. Em vez disso, descrevemos o desempenho medindo a taxa de processamento de tokens, expressa como o número de tokens processados ​​por segundo, para determinar a taxa de processamento de tokens da solução.

Além disso, para garantir que taxas de processamento de token mais altas não comprometam a precisão do modelo, usamos vários testes bem conhecidos para medir a precisão do modelo de ambos os aceleradores. Os resultados não mostram diferenças significativas na precisão entre Intel Gaudi 3 e Nvidia H100. Embora a precisão relatada varie ligeiramente, essas diferenças estão dentro da nossa faixa de erro de medição. Os resultados de precisão são fornecidos no apêndice.

Comparação de modelos quantizados

Começamos com um caso de uso possivelmente menos comum, embora esses resultados sejam frequentemente citados devido ao seu maior rendimento em relação aos modelos de inferência de tipo de dados de “peso total” ou FP16. Os resultados a seguir usam tamanho de dados “quantizados” menor FP8, que atinge desempenho de inferência mais rápido às custas da qualidade do modelo e do resultado. Esses resultados são relevantes para certos usuários e são apresentados como tal.

Comparação de desempenho de inferência com tipo de dados FP8 de 8 bits

Figura 2: Comparação de desempenho de inferência com tipo de dados FP8 de 8 bits

Na figura acima, “1 x FP8” indica o uso de uma única placa aceleradora, e a inferência é baseada no tipo de dados FP8. Esses resultados destacam a vantagem do Nvidia H100 suportar o tipo de dados FP8 quantizados na velocidade de inferência em comparação com o acelerador Intel Gaudi 3. No entanto, apesar do H100 ser otimizado para o tipo de dados FP8, os resultados do Gaudi 3 permanecem bem próximos do H100.

Taxa de processamento de token por unidade de custo com tipo de dados FP8 de 8 bits

Figura 3: Taxa de processamento de token por unidade de custo com tipo de dados FP8 de 8 bits

Conforme mostrado na Figura 3, ao avaliar o número de tokens processados ​​por custo unitário (quanto mais tokens, melhor), descobrimos que o Gaudi 3 da Intel fornece melhores resultados em todas as quatro combinações de carga de trabalho. Por exemplo, com 128 tokens de entrada e 128 tokens de saída (o gráfico de barras mais à esquerda na Figura 2), combinados com dados de custo da Tabela 1, derivamos os seguintes cálculos:

  • Nvidia H100: desempenho 128/128 = (26,933 tokens/segundo) / US$ 300,107.00 = 0.089744 (convertido para a forma percentual de 8.97%)
  • Gaudi 3: desempenho 128/128 = (23,099 tokens/segundo) / $ 157,613.22 = 0.1466 (convertido para a forma percentual de 14.66%)

Desempenho de Lhama de Peso Total

Na Figura 4, comparamos o desempenho do acelerador Nvidia H100 80GB e do acelerador Intel Gaudi 3 usando um único acelerador e tipo de dados de 16 bits para executar o Llama 3.1 8B LLM. Notavelmente, a Nvidia usa “FP16” enquanto a Intel usa “BF16”, ambos equivalentes em precisão, mas ligeiramente diferentes em representação. Conforme mostrado, o Gaudi 3 tem melhor desempenho em cargas de trabalho com menores taxas de entrada para saída, enquanto o H100 tem desempenho ligeiramente superior em cargas de trabalho com maiores taxas de entrada para saída.

Comparação de desempenho de acelerador único

Figura 4: Llama 8B – Comparação de desempenho de acelerador único (16 bits)

Em seguida, avaliamos o desempenho dos aceleradores de IA nos mesmos quatro cenários de carga de trabalho usando o modelo maior Llama 3.1 70B. Devido aos requisitos de memória, esse modelo requer vários aceleradores para ser executado. Na Figura 5, apresentamos o desempenho de 8 aceleradores, comparando Nvidia H100 e Intel Gaudi 3. O rótulo “(8 x 16 bits)” indica o uso de 8 aceleradores com tipo de dados FP16 ou BF16.

Comparação de desempenho de 8 aceleradores

Figura 5: Llama 70B – Comparação de desempenho de 8 aceleradores (16 bits)

Os resultados indicam novamente que a Nvidia tem um desempenho ligeiramente melhor em cargas de trabalho com maiores taxas de entrada para saída.

Comparação de desempenho e custo

Conforme mencionado anteriormente, uma das considerações mais críticas para muitas empresas ao selecionar aceleradores de IA é a relação entre taxa de processamento de tokens e custo. Neste estudo, a proporção de desempenho para custo é expressa como o número de tokens processados ​​por custo unitário (tokens/segundo/USD).

Primeiramente, na Figura 6, analisamos os resultados da execução do modelo Llama 3.1 8B usando um único acelerador, incorporando fatores de custo. Os resultados são apresentados como o número de tokens processados ​​por custo unitário (ou seja, tokens processados ​​por segundo/USD). Portanto, quanto maior o valor, melhor, indicando mais tokens processados ​​por custo unitário.

Comparação de taxa de processamento de token de acelerador único por dólar

Figura 6: Llama 8B – Comparação de taxa de processamento de token de acelerador único por dólar (16 bits)

A seguir, a Figura 7 mostra o desempenho por custo unitário ao executar o modelo maior Llama 3.1 70B usando vários aceleradores. Como antes, essa carga de trabalho é executada com precisão total de 16 bits em 8 aceleradores de IA.

Comparação de taxa de processamento de tokens de 8 aceleradores por dólar

Figura 7: Llama 70B – 8 Aceleradores Taxa de Processamento de Token por Dólar Comparação (16 bits)

Resumo do desempenho

Conforme indicado por vários pontos de dados, somente de uma perspectiva de desempenho, Nvidia H100 e Intel Gaudi 3 fornecem velocidades de inferência semelhantes no conjunto de carga de trabalho Llama 3.1 testado. Em alguns casos, a Nvidia tem uma ligeira vantagem, enquanto em outros, o Intel Gaudi 3 tem melhor desempenho.

De acordo com nossos dados de preços, o Gaudi 3 da Intel oferece 10% mais desempenho por custo unitário em comparação com o Nvidia H100 e, em alguns casos, até 2.5 vezes. As empresas estão desenvolvendo rapidamente aplicativos para aumentar a produtividade com IA. À medida que os aplicativos aprimorados por IA se tornam mais prevalentes, a pressão competitiva mudará de apenas ter aplicativos de IA operacionais para diferenciar com base na qualidade e na relação custo-benefício. Até o momento, grande parte dos relatórios e do hype no campo da IA ​​se concentrou em implantações em hiperescala e nos milhares de aceleradores de IA usados ​​para desenvolver e treinar os modelos de IA mais recentes. Embora as empresas em hiperescala tenham os recursos para tais empreendimentos, para a maioria das empresas, não é viável nem econômico desenvolver e treinar modelos básicos de Transformer ou Diffusion. Além disso, o principal caso de uso para empresas será a implantação de produção, executando cargas de trabalho de inferência. Nosso uso do conjunto de benchmark Signal65 para estudar essas cargas de trabalho visa fornecer insights significativos sobre métricas de desempenho e relação custo-benefício, auxiliando os tomadores de decisão corporativos seniores a tomar decisões de aquisição informadas para plataformas de inferência de IA. Embora o Nvidia H100 possa ter uma ligeira vantagem de desempenho sobre os aceleradores de IA Intel Gaudi 3, ao considerar as diferenças de custo, o Gaudi 3 da Intel demonstra uma vantagem significativa de custo-benefício nas várias cargas de trabalho de inferência que apresentamos.

Deixe um comentário

Voltar ao Topo