Durante o Festival da Primavera Chinês, o DeepSeek rapidamente se tornou popular com seu preço ultrabaixo, desencadeando uma tempestade global de grandes modelos de IA. Isso mudou diretamente o conceito “tradicional” de que o desenvolvimento de IA requer acumulação contínua de poder de computação e GPUs.
Mas muitas pessoas podem se perguntar: Quantas GPUs são necessárias para treinar o DeepSeek?
Há opiniões diferentes sobre esse assunto na Internet. Até o “Homem de Ferro Americano” Musk questionou o DeepSeek: Não acredito que apenas um número muito pequeno de chips tenha sido usado.
Então, quantas GPUs o DeepSeek usa? Recentemente, o site SemiAnalysis analisou esse tópico. Eu, pessoalmente, acho que é relativamente verdade. Vamos discutir isso juntos hoje.
DeepSeek e High-Flyer
Para aqueles que acompanham de perto o campo dos grandes modelos de IA, a DeepSeek não é exatamente uma empresa nova.
O fundador da DeepSeek, Liang Wenfeng, nasceu na cidade de Zhanjiang, província de Guangdong, em 1985. Em 2015, Liang Wenfeng e seus amigos fundaram a High-Flyer, uma das primeiras instituições a usar inteligência artificial em algoritmos de negociação.
Eles perceberam logo no início o potencial da IA além das finanças e a importância da expansão. Como resultado, eles continuaram a expandir seu fornecimento de GPU. Antes das restrições de exportação em 2021, a High-Flyer investiu em 10,000 GPUs A100, um movimento que valeu a pena.
À medida que a High-Flyer continuou a progredir, eles perceberam em maio de 2023 que era hora de desmembrar a “DeepSeek” para buscar mais focadamente mais capacidades de IA. Como investidores externos tinham pouco interesse em IA na época e estavam preocupados com a falta de um modelo de negócios, a High-Flyer investiu na empresa por conta própria, o que agora parece ser um investimento sensato.
Graças a isso, a High-Flyer e a DeepSeek agora compartilham frequentemente recursos humanos e de computação. A DeepSeek agora se desenvolveu em um esforço sério e organizado, não em uma “atividade paralela” como muitos meios de comunicação alegam. A SemiAnalysis acredita que, mesmo levando em conta os controles de exportação, seu investimento em GPUs ultrapassou US$ 500 milhões.
Distribuição de recursos de GPU do DeepSeek
A SemiAnalysis estima que a DeepSeek usa cerca de 50,000 GPUs Hopper para treinamento, o que, claro, não é equivalente a 50,000 H100s, como algumas pessoas alegam. A Nvidia fabrica diferentes versões do H100 (H800, H20) de acordo com diferentes regulamentações, e atualmente apenas o H20 está disponível para fornecedores de modelos na China.
É importante observar que o H800 tem o mesmo poder de computação que o H100, mas com menor largura de banda de rede.
A SemiAnalysis acredita que a DeepSeek usa cerca de 10,000 H800s e cerca de 10,000 H100s. Além disso, eles encomendaram mais H20s, e a Nvidia produziu mais de 1 milhão de GPUs projetadas especificamente para a China nos últimos 9 meses. Essas GPUs são compartilhadas entre a High-Flyer e a DeepSeek e implantadas em um certo grau de dispersão geográfica para negociação, raciocínio, treinamento e pesquisa.

Custo total de propriedade da Deepseek
A análise mostra que as despesas totais de capital do servidor da DeepSeek foram de aproximadamente US$ 1.6 bilhão, dos quais os custos associados à operação desses clusters foram consideráveis, chegando a US$ 944 milhões.
Da mesma forma, todos os laboratórios de IA e provedores de serviços de nuvem em hiperescala têm mais GPUs para uma variedade de tarefas, incluindo pesquisa e treinamento, em vez de apenas para uma única execução de treinamento. Como concentrar efetivamente recursos para treinamento para uma tarefa específica também é um dos desafios da DeepSeek.
Em termos de talento, a DeepSeek se concentra em recrutar talentos da China, independentemente de qualificações anteriores, com foco em sua capacidade e curiosidade. Entende-se que a DeepSeek realiza regularmente feiras de empregos nas principais universidades, como a Universidade de Pequim e a Universidade de Zhejiang, onde muitos funcionários se formam. As posições não são necessariamente predefinidas, e os recrutadores têm flexibilidade. A DeepSeek até se gabou em anúncios de recrutamento de que pode usar dezenas de milhares de GPUs sem restrições.
A DeepSeek é extremamente competitiva, supostamente oferecendo salários de mais de US$ 1.3 milhão a candidatos promissores, muito mais altos do que rivais chineses como a Moonshot. A DeepSeek tem atualmente cerca de 150 funcionários, mas está crescendo rapidamente.
Como a história provou, uma startup pequena, bem financiada e focada geralmente é capaz de ultrapassar os limites do que é possível. A DeepSeek não tem a mesma burocracia que o Google e, sendo autofinanciada, pode levar as ideias adiante rapidamente. No entanto, como o Google, a DeepSeek (na maioria dos casos) opera seus próprios data centers e não depende de terceiros ou provedores externos. Isso abre mais espaço para experimentação, permitindo que eles inovem em toda a pilha.
A SemiAnalysis acredita que o DeepSeek é o melhor laboratório “aberto e flexível” da atualidade, superando o projeto Llama da Meta, o Mistral, etc.
Custo de treinamento e desempenho do DeepSeek
Recentemente, uma manchete sobre o preço e a eficiência do DeepSeek causou um frenesi global, dizendo que o DeepSeek V3 custou apenas “US$ 6 milhões” para treinar, o que é errado. É como considerar uma parte específica na lista de materiais de um produto como o custo total. O custo de pré-treinamento é apenas uma parte muito pequena do custo total.
Vamos dar uma olhada no custo geral de treinamento do DeepSeek:
Acreditamos que o custo do pré-treinamento está longe do valor real gasto no modelo. A SemiAnalysis acredita que os gastos da DeepSeek em hardware na história da empresa são muito maiores do que US$ 500 milhões. Durante o processo de desenvolvimento do modelo, para desenvolver novas inovações arquitetônicas, é necessário gastar uma quantia considerável de dinheiro em testes de novas ideias, novas ideias arquitetônicas e estudos de ablação.
Por exemplo, Multi-Head Latent Attention é uma inovação essencial do DeepSeek. Seu desenvolvimento levou vários meses para a equipe e envolveu muita mão de obra e recursos de GPU. O custo de US$ 6 milhões mencionado no artigo é atribuído apenas aos custos de GPU para as execuções de pré-treinamento, o que é apenas parte do custo total do modelo. Outras partes importantes deixadas de fora incluem P&D e o custo total de propriedade (TCO) do hardware em si.
Para referência, o custo de treinamento do Claude 3.5 Sonnet foi de dezenas de milhões de dólares, e se isso fosse tudo o que a Anthropic precisasse, eles não teriam levantado bilhões do Google e dezenas de bilhões da Amazon. Isso porque eles precisam executar experimentos, criar novas arquiteturas, coletar e limpar dados, pagar funcionários, etc.
Então como a DeepSeek tinha um cluster tão grande? O atraso no controle de exportação é a chave, e eles também encomendaram um grande número de GPUs modelo H20, que são especialmente produzidas para atender às necessidades do mercado chinês.
Vamos dar uma olhada no desempenho do V3:
O V3 é, sem dúvida, um modelo impressionante, mas vale a pena notar o que ele é impressionante em relação a. Muitas pessoas comparam o V3 ao GPT-4o e enfatizam que o V3 supera o 4o. Isso é verdade, mas o GPT-4o foi lançado em maio de 2024. No campo da IA, esse período de tempo trouxe um progresso algorítmico significativo.

Análise competitiva do Deepseek-V3
Com o tempo, é normal atingir as mesmas capacidades ou maiores com menos recursos de computação. Por exemplo, um modelo pequeno que agora pode rodar em um laptop tem desempenho comparável ao GPT-3, que requer um supercomputador para treinamento e múltiplas GPUs para inferência.
Em outras palavras, melhorias algorítmicas resultaram em menos computação necessária para treinar e inferir modelos da mesma capacidade, um padrão que surgiu repetidamente. Desta vez, o mundo percebeu porque veio de um laboratório na China. Mas ganhos de desempenho para modelos pequenos não são nenhuma novidade.

LLM mais barato acima de 42 MMLU Custo/1M Tokens
O padrão que testemunhamos até agora sugere que os laboratórios de IA estão gastando mais em termos absolutos de dólares em troca de melhor desempenho para seu trabalho. A taxa de progresso algorítmico é estimada em 4x por ano, o que significa que a cada ano que passa, a quantidade de computação necessária para atingir a mesma capacidade é reduzida em 3/4.
O CEO da Anthropic, Dario, acredita que o progresso algorítmico é ainda mais rápido, trazendo uma melhoria de 10x. Em termos de precificação de inferência de nível GPT-3, os custos caíram 1,200x.
Ao olhar para o custo do GPT-4, vemos uma tendência similar de queda no custo, embora mais cedo na curva. Enquanto a redução nos diferenciais de custo ao longo do tempo poderia ser explicada por não manter a potência constante, neste caso vemos uma redução de 10x no custo e um aumento de 10x na potência devido a melhorias e otimizações algorítmicas.

LLM mais barato acima de determinado custo de MMLU/1 milhão de tokens
Para ser claro, o DeepSeek é único no sentido de que eles são os primeiros a atingir esse nível de custo e capacidade. Eles também são únicos em lançar pesos de código aberto, mas modelos anteriores do Mistral e do Llama fizeram isso. O DeepSeek atingiu esse nível de custo, mas não se surpreenda ao ver os custos caírem mais 5x até o final do ano.
- O desempenho do R1 é comparável ao do o1?
Por outro lado, o R1 é capaz de atingir resultados comparáveis ao O1, que só foi anunciado em setembro. Como o DeepSeek alcançou tão rápido?
A resposta é que a inferência é um novo paradigma que tem iterações mais rápidas e menores barreiras de entrada, e pode atingir ganhos significativos com menos computação, o que é mais vantajoso do que o paradigma anterior. Conforme descrito no relatório Scaling Law, o paradigma anterior dependia do pré-treinamento, que está se tornando cada vez mais caro e difícil de atingir ganhos robustos.
Este novo paradigma foca em habilitar capacidades de inferência por meio da geração de dados sintéticos e aprendizado por reforço (RL) pós-treinado em modelos existentes, o que permite que as pessoas progridam mais rápido e a um preço menor. A baixa barreira de entrada combinada com a facilidade de otimização permite que a DeepSeek replique a abordagem da o1 mais rápido do que nunca. À medida que os participantes gradualmente aprendem a atingir maior escala neste novo paradigma, espera-se que o intervalo de tempo para corresponder às capacidades aumente.
É importante notar que o artigo R1 não menciona a quantidade de computação usada. Isso não é acidente — gerar dados sintéticos para R1 pós-treinamento requer muita computação, sem mencionar o aprendizado por reforço. R1 é um modelo muito bom, não negamos isso, e atingir a vanguarda das capacidades de raciocínio tão rapidamente é admirável. A DeepSeek é ainda mais impressionante como uma empresa chinesa que alcançou com ainda menos recursos.
Mas alguns dos benchmarks mencionados por R1 também são enganosos. Comparar R1 com o1 é complicado porque R1 intencionalmente não menciona os benchmarks que eles não lideram. E embora R1 seja comparável a o1 em desempenho de inferência, em muitos casos ele não é o vencedor claro em todas as métricas, e em muitos casos ele é pior que o1.
Ainda nem mencionamos o O3. O O3 é muito superior ao R1 e ao O1. Na verdade, a OpenAI compartilhou recentemente os resultados do O3, e a melhoria nos benchmarks foi vertical. “O aprendizado profundo atingiu uma parede”, mas esse é um tipo diferente de parede.
- O modelo de inferência do Google é comparável ao R1?
Enquanto o R1 gerou muito hype, uma empresa de US$ 2.5 trilhões lançou um modelo de inferência mais barato um mês antes: o Gemini Flash 2.0 Thinking do Google. Este modelo já está disponível e é muito mais barato que o R1, embora o comprimento do contexto do modelo seja muito maior por meio da API.
Nos benchmarks relatados, o Flash 2.0 Thinking supera o R1, embora os benchmarks não contem a história toda. O Google lançou apenas 3 benchmarks, então esta é uma imagem incompleta. Ainda assim, achamos que o modelo do Google é sólido e se mantém contra o R1 em muitos aspectos, mesmo que não tenha tido nenhum hype. Isso pode ser devido à estratégia de entrada no mercado ruim do Google e à experiência ruim do usuário, mas também porque o R1 foi uma surpresa da China.
Para ser claro, nada disso diminui a conquista extraordinária da DeepSeek. A DeepSeek merece crédito por ser uma startup ágil, bem financiada, inteligente e focada que foi capaz de vencer uma gigante como a Meta para lançar um modelo de inferência.
Inovação Tecnológica DeepSeek
A DeepSeek decifrou o código do grande modelo de IA, desbloqueando inovações que os laboratórios líderes ainda não conseguiram alcançar. A SemiAnalysis espera que quaisquer melhorias lançadas pela DeepSeek sejam replicadas quase imediatamente pelos laboratórios ocidentais.
Quais são essas melhorias? A maioria das conquistas arquitetônicas está relacionada ao V3, que é o modelo base do R1. Vamos explicar essas inovações em detalhes.
- Treinamento (pré-treinamento e ajuste fino)
O DeepSeek V3 usa predição multi-rótulo (MTP) em uma escala sem precedentes e adiciona módulos de atenção que preveem os próximos rótulos em vez de um único rótulo. Isso melhora o desempenho do modelo durante o treinamento e pode ser descartado no momento da inferência. Este é um exemplo de inovação algorítmica que atinge melhor desempenho com menor esforço computacional.
Há outras considerações, como usar a precisão FP8 no treinamento, mas os principais laboratórios dos EUA têm feito treinamento FP8 há muito tempo. O DeepSeek V3 também é uma mistura de modelo especialista, um modelo grande composto de muitos outros especialistas menores que são bons em coisas diferentes, o que é um comportamento emergente. Um desafio com modelos de mistura de especialistas é como determinar qual rótulo deve ser atribuído a qual submodelo ou “especialista”.

Mistura de Especialistas
O DeepSeek implementa uma “rede de gating” para despachar rótulos para os especialistas corretos de forma equilibrada, sem degradar o desempenho do modelo. Isso significa que o despacho é muito eficiente e, durante o treinamento, apenas um pequeno número de parâmetros é alterado para cada rótulo em relação ao tamanho geral do modelo. Isso aumenta a eficiência do treinamento e reduz o custo da inferência.
Enquanto alguns se preocupam que os ganhos de eficiência do MoE possam reduzir o investimento, Dario observa que os benefícios econômicos de modelos de IA mais poderosos são tão grandes que qualquer economia de custo é rapidamente reinvestida na construção de modelos maiores. Em vez de reduzir o investimento geral, os ganhos de eficiência do MoE acelerarão os esforços de dimensionamento de IA. As empresas se concentram em dimensionar modelos para mais recursos de computação e torná-los mais eficientes algoritmicamente.
No caso do R1, ele se beneficiou muito de ter um modelo base forte (V3). Isso se deve em parte ao aprendizado por reforço (RL). O RL tem dois focos: formatação (para garantir que ele forneça uma saída coerente) e utilidade vs. inocuidade (para garantir que o modelo seja útil). Capacidades de raciocínio emergem quando o modelo é ajustado em um conjunto de dados sintéticos.
É importante notar que não há menção de computação no artigo R1, isso porque mencionar a quantidade de computação usada sugeriria que eles têm mais GPUs do que alegam. O aprendizado por reforço nessa escala requer muita computação, especialmente para gerar dados sintéticos.
Além disso, uma parte dos dados usados pelo DeepSeek parece vir do modelo da OpenAI, o que a SemiAnalysis acredita que terá um impacto na política de extração de informações da saída. Isso já é ilegal nos termos de serviço, mas olhando para o futuro, uma nova tendência pode ser alguma forma de KYC (know your customer) para evitar a extração de informações.
Falando em extrair informações, talvez a parte mais interessante do artigo R1 seja a capacidade de transformar modelos menores de não inferência em modelos de inferência, ajustando-os com a saída do modelo de inferência. A curadoria do conjunto de dados inclui um total de 800,000 amostras, e agora qualquer um pode usar a saída CoT do R1 para criar seus próprios conjuntos de dados e usar essas saídas para fazer modelos de inferência. Podemos ver mais modelos menores demonstrando capacidades de inferência, melhorando assim o desempenho de modelos pequenos.
- Atenção Multi-Latent (MLA)
O MLA é uma das principais inovações do DeepSeek que reduz significativamente o custo da inferência. O motivo é que o MLA reduz o cache KV necessário para cada consulta em cerca de 93.3% em comparação com a atenção padrão. O cache KV é um mecanismo de memória no modelo Transformer que é usado para armazenar dados que representam o contexto da conversa e reduzir cálculos desnecessários.

MLA
Conforme o contexto da conversa cresce, o cache KV também cresce e pode introduzir restrições de memória significativas. Reduzir drasticamente o cache KV necessário para cada consulta pode reduzir a quantidade de hardware necessária para cada consulta, reduzindo assim os custos.
No entanto, a SemiAnalysis acredita que o DeepSeek está oferecendo serviços de inferência a preço de custo para ganhar participação de mercado em vez de realmente ganhar dinheiro. O Gemini Flash 2.0 Thinking do Google ainda é mais barato, e é improvável que o Google ofereça o serviço a preço de custo. O MLA atraiu particularmente a atenção de muitos laboratórios líderes dos EUA. O MLA foi introduzido no DeepSeek V2, que foi lançado em maio de 2024. Devido à maior largura de banda de memória e capacidade do H20 do que do H100, o DeepSeek também desfruta de mais eficiência em cargas de trabalho de inferência.
Atualmente, os requisitos de GPU do DeepSeek destacam a necessidade de planejamento eficaz de infraestrutura de IA. Ao usar distribuição inteligente de carga de trabalho, quantização e alocação dinâmica de GPU, as empresas podem reduzir significativamente os custos de computação, mantendo alto desempenho. Esta também é uma razão importante pela qual o DeepSeek é chamado de produto de “nível nacional”.