O que é memória GDDR?
GDDR, Graphics Double Data Rate, é um tipo de memória projetada especificamente para placas de vídeo. A memória GDDR é semelhante à memória DDR usada na maioria dos computadores, mas é otimizada para placas de vídeo. A memória GDDR geralmente tem uma largura de banda maior do que a memória DDR, o que significa que ela pode transferir mais dados de uma vez.
GDDR6 é o mais recente padrão de memória para GPUs, com uma taxa de dados máxima por pino de 16 Gb/s. GDDR6 é usado na maioria das GPUs, incluindo a NVIDIA RTX 6000 Ada e a AMD Radeon PRO W7900, ainda usadas em GPUs em 2024.
A NVIDIA também está trabalhando com a Micron no GDDR6X, o sucessor do GDDR6. Dizemos isso porque, além da codificação de NRZ para PAM4, não há mudanças de hardware entre os dois, e como a NVIDIA é a única usuária, não há endosso da padronização da indústria JEDEC. O DDR6X aumenta a largura de banda por pino para 21 Gb/s. O GDDR7 é o próximo padrão GDDR que deve ser amplamente adotado por todos.
Em 2024, o barramento de memória máximo para GDDR6 e GDDR6X é de 384 bits. A memória GDDR é um único chip soldado ao PCB que envolve o chip GPU.

Memória GDDR
O que é memória HBM?
HBM significa High Bandwidth Memory, um novo tipo de memória desenvolvido especificamente para GPUs.
A memória HBM é projetada para fornecer uma largura de barramento de memória maior do que a memória GDDR, o que significa que ela pode transferir mais dados de uma vez. Um único chip de memória HBM não é tão rápido quanto um único chip GDDR6, mas isso o torna mais eficiente em termos de energia do que a memória GDDR, o que é uma consideração importante para dispositivos móveis.
A memória HBM está localizada dentro do pacote da GPU e é empilhada – por exemplo, a HBM tem uma pilha de quatro DRAMs (4-Hi), cada uma com dois canais de 128 bits e uma largura total de 1024 bits (4 * 2 canais * 128 bits). Como a memória HBM é construída no chip da GPU como um módulo de chip de memória, há menos erros e espaço. Portanto, uma única GPU não pode dimensionar facilmente sua configuração de memória tão facilmente quanto uma GPU equipada com GDDR.
A memória HBM mais recente e adotada é a HBM3 na NVIDIA H100, com um barramento de 5120 bits e mais de 2 TB/s de largura de banda de memória. A HBM3 também está presente no AMD Instinct MI300X do seu concorrente, com um barramento de 8192 bits e mais de 5.3 TB/s de largura de banda de memória. A Nvidia também introduziu a nova memória HBM3e em seu GH200 e H200 como os primeiros aceleradores e processadores a usar HBM3e, que tem maior largura de banda de memória. Esses hardwares equipados com memória HBM estão sendo reformados em um ritmo rápido. Uma razão importante pela qual GPUs aceleradoras como H100 e MI300X precisam de HBM é a interconectividade entre várias GPUs; Para se comunicarem entre si, uma ampla largura de barramento e taxas rápidas de transferência de dados são essenciais para reduzir a restrição de transferência de dados de uma GPU para outra.

Memória HBM
GDDR vs HBM
Qual tipo de memória é melhor para GPU? A resposta é que depende do cenário específico.
As GPUs equipadas com memória GDDR são normalmente:
- Mais acessíveis porque são tipos de GPU convencionais
- Mais barato, porque o GDDR é soldado diretamente no PCB, não no pacote da GPU.
- A maioria dos aplicativos convencionais não maximiza a largura de banda da memória, mas o GDDR geralmente consome mais energia e não é tão eficiente.
GPUs equipadas com memória HBM são normalmente:
- Menos acessível, mais nicho
- Muito caro, encontrado em aceleradores emblemáticos como o H100.
- Somente para HPC e cargas de trabalho de alto nicho que exigem mais largura de banda
- Eficiente e fornece larguras de barramento maiores para paralelizar taxas por pino.
A maioria dos aplicativos não requer memória HBM. Para cargas de trabalho que utilizam grandes quantidades de dados, uma largura de banda de memória maior é de extrema importância. Cargas de trabalho como simulações, análises em tempo real, treinamento intensivo de IA, inferência complexa de IA e muito mais podem se beneficiar do uso de mais largura de banda de memória.
Também é importante considerar que a GPU mais rápida equipada com GDDR funcionará muito bem se as cargas de trabalho forem paralelas entre si. A NVIDIA RTX 6000 Ada é uma GPU carro-chefe poderosa, ideal para treinamento de IA de pequeno a médio porte, renderização, análise, simulação e cargas de trabalho intensivas em dados, com uma largura de banda de memória de 960 GB/s. Seus soquetes são servidores ou estações de trabalho com configurações multi-GPU, onde o trabalho pode ser paralelizado e dividido para um desempenho ainda maior.
No entanto, GPUs equipadas com HBM, como a NVIDIA H100, podem melhorar significativamente a produtividade em implantações empresariais (embora a um alto custo). Maior desempenho e menos espera levam a avanços mais rápidos. Implantações como ChatGPT alavancam clusters de H100s trabalhando juntos para executar inferência em tempo real e gerar funções de IA para milhões de usuários em um determinado momento, processando prompts e entregando saídas em tempo real.
Sem memória rápida de alta largura de banda e desempenho máximo, as implantações empresariais podem se tornar lentas demais para serem usadas. Um bom exemplo disso é o lançamento do ChatGPT. O ChatGPT e o OpenAI provavelmente acham que têm GPUs NVIDIA habilitadas para HBM o suficiente para lidar com um grande número de usuários simultâneos, mas não têm ideia de quão popular seu novo chatbot de IA generativa será. Eles tiveram que colocar um limite no número de usuários simultâneos, pedindo aos visitantes do site que fossem pacientes com o serviço enquanto eles escalavam sua infraestrutura. No entanto, dessa perspectiva, o ChatGPT pode não ser viável sem GPUs usando essas interconexões de memória de alta largura de banda.
Conclusão
Em resumo, tanto a memória GDDR quanto a memória HBM têm seus prós e contras. A memória GDDR é mais barata e é uma boa escolha para aplicativos que exigem alta largura de banda, mas não precisam do mais alto desempenho absoluto. Por outro lado, a memória HBM é mais cara, mas oferece maior largura de banda, o que a torna uma boa escolha para aplicativos que exigem alto desempenho. Ao escolher entre esses dois tipos de memória, é importante considerar o cenário e o custo.