Qu'est-ce que la mémoire GDDR ?
GDDR (Graphics Double Data Rate) est un type de mémoire spécialement conçu pour les cartes graphiques. La mémoire GDDR est similaire à la mémoire DDR utilisée dans la plupart des ordinateurs, mais elle est optimisée pour les cartes graphiques. La mémoire GDDR a généralement une bande passante plus élevée que la mémoire DDR, ce qui signifie qu'elle peut transférer plus de données à la fois.
La GDDR6 est la dernière norme de mémoire pour les GPU, avec un débit de données maximal par broche de 16 Gb/s. La GDDR6 est utilisée dans la plupart des GPU, y compris les NVIDIA RTX 6000 Ada et AMD Radeon PRO W7900, toujours utilisées dans les GPU en 2024.
NVIDIA travaille également avec Micron sur la GDDR6X, le successeur de la GDDR6. Nous disons cela parce qu'à part le codage de NRZ à PAM4, il n'y a pas de changements matériels entre les deux, et comme NVIDIA est le seul utilisateur, il n'y a pas d'approbation de la part de la normalisation industrielle JEDEC. La DDR6X augmente la bande passante par broche à 21 Gb/s. La GDDR7 est la prochaine norme GDDR qui devrait être largement adoptée par tout le monde.
En 2024, le bus mémoire maximal pour GDDR6 et GDDR6X est de 384 bits. La mémoire GDDR est une puce unique soudée au PCB entourant la puce GPU.
Mémoire GDDR
Qu'est-ce que la mémoire HBM ?
HBM signifie High Bandwidth Memory, un nouveau type de mémoire développé spécifiquement pour les GPU.
La mémoire HBM est conçue pour offrir une largeur de bus mémoire plus importante que la mémoire GDDR, ce qui signifie qu'elle peut transférer plus de données à la fois. Une seule puce mémoire HBM n'est pas aussi rapide qu'une seule puce GDDR6, mais cela la rend plus économe en énergie que la mémoire GDDR, ce qui est un facteur important pour les appareils mobiles.
La mémoire HBM est située à l'intérieur du boîtier du GPU et est empilée. Par exemple, HBM possède une pile de quatre DRAM (4-Hi), chacune avec deux canaux de 128 bits et une largeur totale de 1024 bits (4 * 2 canaux * 128 bits). Étant donné que la mémoire HBM est intégrée à la puce du GPU en tant que module de puce mémoire, il y a moins d'erreurs et d'espace. Par conséquent, un seul GPU ne peut pas facilement faire évoluer sa configuration de mémoire aussi facilement qu'un GPU équipé de GDDR.
La mémoire HBM la plus récente et la plus adoptée est la HBM3 dans NVIDIA H100, avec un bus de 5120 bits et une bande passante mémoire de plus de 2 To/s. La HBM3 est également présente dans l'AMD Instinct MI300X de son concurrent, avec un bus de 8192 bits et une bande passante mémoire de plus de 5.3 To/s. Nvidia a également introduit la nouvelle mémoire HBM3e dans ses GH200 et H200, premiers accélérateurs et processeurs à utiliser la HBM3e, qui dispose d'une bande passante mémoire plus importante. Ces matériels équipés de mémoire HBM sont remis à neuf à un rythme rapide. L'une des principales raisons pour lesquelles les GPU accélérateurs tels que H100 et MI300X ont besoin de HBM est l'interconnectivité entre plusieurs GPU ; pour communiquer entre eux, une large largeur de bus et des taux de transfert de données rapides sont essentiels pour réduire la contrainte de transfert de données d'un GPU à un autre.
Mémoire HBM
GDDR contre HBM
Quel type de mémoire est le plus adapté au GPU ? La réponse est que cela dépend du scénario spécifique.
Les GPU équipés de mémoire GDDR sont généralement :
- Plus accessibles car ce sont des types de GPU courants
- Moins cher, car la GDDR est soudée directement sur le PCB, et non sur le boîtier GPU.
- La plupart des applications grand public ne maximisent pas la bande passante mémoire, mais la GDDR consomme généralement plus d’énergie et n’est pas aussi efficace.
Les GPU équipés de mémoire HBM sont généralement :
- Moins accessible, plus spécialisé
- Très cher, on le retrouve dans les accélérateurs phares comme le H100.
- Uniquement pour les charges de travail HPC et de niche qui nécessitent le plus de bande passante
- Efficace et fournit des largeurs de bus plus grandes pour paralléliser les débits par broche.
La plupart des applications ne nécessitent pas de mémoire HBM. Pour les charges de travail qui utilisent de grandes quantités de données, une bande passante mémoire plus élevée est de la plus haute importance. Les charges de travail telles que les simulations, les analyses en temps réel, la formation intensive de l'IA, l'inférence complexe de l'IA, etc. peuvent toutes bénéficier d'une utilisation plus large de la bande passante mémoire.
Il est également important de considérer que le GPU le plus rapide équipé de GDDR fonctionnera parfaitement si les charges de travail sont parallèles les unes aux autres. NVIDIA RTX 6000 Ada est un puissant GPU phare idéal pour la formation d'IA de petite à moyenne taille, le rendu, l'analyse, la simulation et les charges de travail gourmandes en données, avec une bande passante mémoire de 960 Go/s. Ses sockets sont des serveurs ou des stations de travail avec des configurations multi-GPU, où le travail peut être parallélisé et divisé pour des performances encore plus élevées.
Cependant, les GPU équipés de HBM comme le NVIDIA H100 peuvent améliorer considérablement la productivité dans les déploiements d'entreprise (bien qu'à un coût élevé). Des performances plus élevées et moins d'attente conduisent à des avancées plus rapides. Les déploiements tels que ChatGPT exploitent des clusters de H100 travaillant ensemble pour effectuer des inférences en temps réel et générer des fonctions d'IA pour des millions d'utilisateurs à un moment donné, en traitant les invites et en fournissant des résultats en temps réel.
Sans mémoire rapide à large bande passante et performances de pointe, les déploiements d’entreprise peuvent devenir trop lents pour être utilisés. Le lancement de ChatGPT en est un bon exemple. ChatGPT et OpenAI pensent probablement qu’ils ont suffisamment de GPU NVIDIA compatibles HBM pour gérer un grand nombre d’utilisateurs simultanés, mais n’ont aucune idée de la popularité de leur nouveau chatbot génératif à IA. Ils ont dû limiter le nombre d’utilisateurs simultanés, en demandant aux visiteurs du site d’être patients avec le service pendant qu’ils faisaient évoluer leur infrastructure. Cependant, de ce point de vue, ChatGPT pourrait ne pas être réalisable sans les GPU utilisant ces interconnexions de mémoire à large bande passante.
Pour aller plus loin
En résumé, la mémoire GDDR et la mémoire HBM ont toutes deux leurs avantages et leurs inconvénients. La mémoire GDDR est moins chère et constitue un bon choix pour les applications qui nécessitent une bande passante élevée mais n'ont pas besoin des performances les plus élevées. En revanche, la mémoire HBM est plus chère mais offre une bande passante plus élevée, ce qui en fait un bon choix pour les applications qui nécessitent des performances élevées. Lors du choix entre ces deux types de mémoire, il est important de prendre en compte le scénario et le coût.
Articles connexes
- Combien d'années reste-t-il avant que la technologie CPO ne soit pratique ?
- Présentation du module émetteur-récepteur optique 400G QSFP-DD
- Rapport de test de compatibilité et d'interconnexion des modules émetteurs-récepteurs optiques 800G SR8 et 400G SR4
- Comprendre le CFP2-DCO : l'avenir des modules émetteurs-récepteurs optiques cohérents