Lors de la conférence GTC 2024, NVIDIA a dévoilé sa puce d'IA révolutionnaire Blackwell. Qu'est-ce qui la distingue et quels obstacles insurmontables surmonte-t-elle ?
Avant de plonger dans les détails de Blackwell, découvrons de plus près la philosophie de conception du GB200. Le GB200 représente la superpuce d'IA la plus puissante de NVIDIA, constituant potentiellement l'épine dorsale des serveurs d'IA les plus puissants au monde. Comment NVIDIA a-t-il réussi cet exploit ?
La réponse réside dans une recherche et un développement minutieux, associés à une stratégie d'expansion claire. Jensen Huang (PDG de NVIDIA) a révélé que le coût de développement de Blackwell s'élevait à environ 10 milliards de dollars, un investissement colossal.
Examinons maintenant les cinq couches de puissance de calcul :
Puissance de calcul sur une seule puce
Sous les contraintes d'une technologie de processus équivalente, une plus grande surface de puce peut accueillir plus de transistors. La taille de la puce de Blackwell repousse les limites, couvrant une plaquette entière (800 mm²) dans les limites d'exposition maximales des machines de lithographie. Huang a plaisanté en disant que si elle était plus grande, elle pourrait provoquer la fracture de la plaquette entière en raison de limitations physiques.
Beaucoup perçoivent la puissance de calcul de l'IA comme l'accumulation de cœurs multiprocesseurs en streaming (SM). Bien que cela soit vrai dans une certaine mesure, il est essentiel d'explorer les avancées en matière de puissance de calcul sur une seule carte. Par exemple, le processeur Ascend 910B de Huawei se rapproche des niveaux A100 en augmentant les SM.
Cependant, comme nous le verrons, la puissance de calcul d'une seule carte ne représente que le premier niveau de capacité de l'IA. Examinons maintenant les progrès de Blackwell dans ce domaine.
Pour répondre à cette question, revenons sur l'évolution historique des cartes accélératrices d'IA de NVIDIA. La première génération de cartes accélératrices d'IA, Volta, a introduit l'architecture Tensor Core spécialement conçue pour les calculs d'IA. Le GPU V100, basé sur cette architecture, comportait 80 unités SM, chacune contenant 8 cœurs de calcul (blocs). Chaque cœur pouvait effectuer 128 opérations de multiplication-accumulation en virgule flottante de 16 bits par cycle. Avec une fréquence d'horloge de 1.53 GHz, la puissance de calcul en virgule flottante du V100 s'élevait à 125 téraflops (TFLOPS).
Pour faciliter la compréhension de tous, expliquons brièvement certaines des abréviations ici. « FLOPS » signifie « Floating Point Operations Per Second » (opérations en virgule flottante par seconde), représentant le nombre de calculs en virgule flottante effectués par seconde. « Tera » est une unité de notation scientifique, où 1 Tera équivaut à 1000 XNUMX Giga. Dans ce contexte, « Tera » correspond à un ordre de grandeur spécifique.
Maintenant, examinons en détail les différentes architectures GPU de NVIDIA :
Architecture de Turing (T4) :
- L'architecture de calcul tensoriel de deuxième génération de NVIDIA s'appelle « Turing ». Elle représente la carte graphique T4.
- Une carte T4 contient 40 multiprocesseurs de streaming (SM) et les autres spécifications sont similaires à celles du V100.
- Par conséquent, la puissance de calcul du T4 est environ la moitié de celle du V100, soit environ 65 TFLOPS.
Architecture Ampère (A100) :
- L'architecture de traitement tenseur de troisième génération est Ampere, qui inclut les cartes graphiques familières de la série A100.
- Grâce aux progrès de la technologie de fabrication des puces, l'A100 dispose de 108 SM (le double de la génération précédente) avec le même nombre de cœurs que le V100.
- Les unités de calcul mises à niveau permettent à chaque cœur d’effectuer 256 multiplications et accumulations à virgule flottante par cycle (deux fois la capacité de l’ancienne architecture).
- De plus, l'A100 introduit un mode à virgule flottante 8 bits (FP8) optimisé pour les charges de travail d'apprentissage profond. Chaque cœur 16 bits peut fonctionner comme deux cœurs 8 bits, augmentant encore la puissance de calcul.
- Malgré une légère diminution de la fréquence d'horloge (1.41 GHz), l'A100 atteint près de 5 fois la puissance de calcul du V100, totalisant 624 TFLOPS (FP8).
Architecture de la trémie (H100) :
- L'architecture de quatrième génération, connue sous le nom de Hopper, a été lancée par NVIDIA l'année dernière.
- Bien que le nombre de SM (132) de la série H100 n'ait pas augmenté de manière significative par rapport à la génération précédente, elle dispose d'une nouvelle architecture Tensor Core et d'une conception de mémoire asynchrone.
- Chaque cœur SM peut désormais effectuer des multiplications et des accumulations FP16 512 fois par cycle.
- La fréquence d'horloge est légèrement plus élevée à 1.83 GHz.
- En conséquence, une seule carte H100 atteint un nombre étonnant de 1978 Tera FLOPS (FP8), entrant pour la première fois dans le domaine des PFLOPS (1.97 Peta FLOPS).
- Pour mettre cela en perspective, 1 PFLOPS équivaut à 1000 XNUMX TFLOPS.
- Imaginez que vous étendiez la capacité de votre disque dur de mille fois et vous obtiendriez 1 Po, une unité de stockage courante dans les grands centres de données.
La semaine dernière, Huang a dévoilé l'architecture Blackwell de cinquième génération, marquant une avancée significative en termes de puissance de calcul. Sur la base de données accessibles au public, le GB200, utilisant la nouvelle unité de données FP4, devrait atteindre 20 PetaFLOPS de puissance de calcul dans les tâches d'inférence. Une fois reconverti à la précision FP8, il devrait toujours fournir un impressionnant 10 PFLOPS, ce qui représente une amélioration d'environ cinq fois par rapport au H100.
Les informations divulguées publiquement indiquent que Blackwell fonctionne à une fréquence d'horloge de 2.1 GHz. En supposant des changements architecturaux minimes, cela implique que Blackwell comportera 600 multiprocesseurs de streaming (SM), soit près de quatre fois plus que le H100. Avec deux matrices dans la conception de Blackwell, même un GPU à une seule matrice aura deux fois plus de SM que le H100.
L'augmentation remarquable de la puissance de calcul doit beaucoup aux progrès de la lithographie, de la gravure sur puce et aux limitations physiques liées à la taille des plaquettes, premier niveau d'amélioration. De plus, le perfectionnement continu de l'architecture Tensor Core par NVIDIA, notamment les pipelines optimisés pour les transformateurs et les pilotes CUDA dédiés, a contribué de manière significative aux performances améliorées de Blackwell.
Cependant, l'augmentation fondamentale de la puissance de calcul de Blackwell provient principalement de l'augmentation du nombre de SM. Par rapport à l'architecture Hopper introduite en 2023, Blackwell réalise une amélioration d'environ cinq fois. Par rapport à l'architecture Volta de 2017, le bond est encore plus substantiel : environ 40 fois.
La deuxième couche de puissance de calcul implique des interconnexions Die-to-Die.
Blackwell atteint 600 SM en créant le plus grand chiplet du monde : en reliant directement deux cœurs de GPU dans une unité massive qui brise les limites physiques d'un seul wafer. La vitesse de communication entre ces cœurs atteint un stupéfiant 10 To/s, ce qui les amène à se percevoir comme une seule puce colossale.
Alors que les contraintes liées aux masques photographiques, à l'exposition, à la taille des plaquettes et aux dimensions du processus limitent généralement le nombre de transistors sur une seule puce, Blackwell défie ces limites. La surface de sa puce s'étend sur 800 millimètres carrés, ce qui correspond à la taille maximale pouvant être produite par les machines de photolithographie.
L'ambition de Huang ne s'arrête pas là. Il s'aventure vers un niveau supérieur de puissance de calcul : connecter deux puces pour former un chiplet encore plus grand. Tant que la vitesse d'interconnexion reste suffisamment élevée, ces deux chiplets fonctionneront comme une seule unité : ce sera la naissance du plus grand GPU du monde.
Pourquoi deux puces électroniques et non trois ou quatre ? Le principe « un engendre deux, deux engendre toutes choses » s’applique ici. « Deux » représente la solution optimale pour la communication et la complexité des puces dans le cadre des contraintes technologiques actuelles.
Apple possède également sa propre technologie d'interconnexion à double matrice appelée UltraFusion, bien qu'avec une capacité de communication réduite (seulement 2.5 To/s). Cependant, les GPU de Huang Renxun sont des produits industriels, dépassant de loin les produits électroniques grand public.
Cette réussite est une démonstration de prouesse sans frais de NVIDIA, motivée par une demande explosive en puissance de calcul. Blackwell se targue de la communication Die-to-Die la plus rapide au monde, avec un débit stupéfiant de 10 To/s, en utilisant une technologie appelée NV-HBI (High Bandwidth Interface), qui n'a pas été dévoilée. Nous pensons qu'il pourrait s'agir d'une variante de NVLINK 5.0 ou de séries XSR 224G, utilisant 48 groupes de canaux pour une bande passante totale de 10 To/s.
Quelle que soit la technologie adoptée par NVIDIA, les exigences en matière d'emballage avancé sont entièrement nouvelles. Les entreprises d'emballage, grâce à un filetage complexe de fils de cuivre à l'intérieur de la carte et à des billes de soudure métalliques à l'arrière du PCB, parviennent à réaliser des interconnexions 2.5D complexes, une véritable prouesse technique. L'emballage, deuxième après la photolithographie, représente un défi de taille pour l'industrie nationale des puces électroniques.
En résumé, Blackwell dispose de 206 milliards de transistors, supportant jusqu'à huit piles mémoire HBM3e (au lieu de quatre), chacune avec une capacité de 24 Go et une bande passante de 1 To/s. Par conséquent, le GPU B200 offrira un total de 192 Go de mémoire et une bande passante mémoire de 8 To/s.
Le coût de recherche et développement des GPU Blackwell s'élève à 10 milliards de dollars. En atteignant la puissance de calcul ultime d'un seul GPU, il s'agit de la première ligne de défense des processeurs de supercalcul IA de NVIDIA.
Quant à l'interconnexion de trois, quatre ou plus de GPU, Huang Renxun laisse ce défi au niveau supérieur de puissance de calcul : NVLink.
Le troisième niveau de puissance de calcul de l'architecture Blackwell de NVIDIA implique NVLink et interconnecte 72 GPU.
Même si la combinaison de deux matrices dans un seul GPU semble puissante, les applications pratiques nécessitent encore plus. Pour les modèles de langage volumineux avec des centaines de milliards de paramètres, la réalisation d'un apprentissage rapide sur des corpus de texte massifs avec des milliards de jetons exige un calcul parallèle intensif.
Le parallélisme des données est un aspect dans lequel les pondérations des modèles et même les couches individuelles doivent être réparties sur différents GPU pour un calcul parallèle, ce qui permet d'obtenir une accélération tridimensionnelle de division et de conquête. Pour la formation parallèle de grands modèles de langage, nous pouvons nous référer aux idées de HuggingFace sur ce sujet.
Ce que nous devons comprendre, c'est que même avec suffisamment de mémoire, un seul GPU ne suffit pas à entraîner un modèle de langage volumineux.
La solution de NVIDIA consiste à assembler deux GPU Blackwell et un processeur Arm (CPU Grace) sur une seule carte mère. Ce produit, baptisé GB200 (Grace Blackwell 200), est doté de deux GPU Blackwell et de quatre matrices, ce qui permet d'obtenir une puissance de calcul FP8 de 20 PFLOPS, soit deux fois celle d'un seul GPU. Les deux GPU sont interconnectés via la technologie NVLink, assistée par le CPU Grace, ce qui permet d'obtenir une bande passante de communication de 1.8 To/s par GPU et une bande passante totale de 3.6 To/s. La connexion spécifique est illustrée dans le schéma ci-dessous :
NVIDIA assemble ensuite 36 cartes PCB (appelées rack) dans un châssis de serveur standard. Ces 36 cartes mères restent interconnectées via NVLink, facilité par des signaux électriques via des câbles en cuivre.
Selon la norme NVLink 5, chaque GPU peut communiquer avec jusqu'à 18 autres GPU simultanément, ce qui donne une bande passante totale de 1.8 To/s, soit 14 fois celle du PCIe 5. Au total, les 72 GPU atteignent une bande passante de communication combinée de 130 To/s, ce qui pourrait théoriquement prendre en charge l'ensemble d'Internet.
Ce boîtier, équipé de 72 cœurs GPU Blackwell, est baptisé GB200 NVL72. L'interconnexion à 72 GPU surpasse les schémas parallèles traditionnels à 8 GPU (tels que ceux de Huawei et AMD) d'un facteur 9. La capacité de mémoire configurable à haute vitesse HBM72e du NVL3 passe de 192 Go pour une seule carte à 13.5 To, avec une bande passante mémoire maximale de 576 To/s.
Ces chiffres peuvent paraître vertigineux, mais leur impact sur la vitesse d'apprentissage des grands modèles est indéniable. Par rapport au GB200 avec seulement deux GPU, l'amélioration des performances du NVL72 est stupéfiante, soit 36 fois. Nous sommes véritablement entrés dans le domaine du supercalcul, où la simplicité rencontre la force brute.
Plus précisément, le NVL200 GB72 atteint 720 PFLOPS en puissance de calcul FP8 et, pour la première fois, entre dans le domaine Exa avec 1.44 Exa FLOPS en FP4. Cela explique pourquoi, dans les tâches d'inférence, le NVL72 surpasse le H100 jusqu'à 30 fois.
La puissance de calcul exascale rivalise désormais avec celle des meilleurs supercalculateurs du monde. Alors que les supercalculateurs atteignent ce niveau de performance en utilisant des calculs FP64 et des millions de cœurs de processeur, le GB200 NVL72 y parvient avec seulement 72 GPU
Quatrième couche de calcul : NVSwitch, SuperPOD
Lorsqu'une seule armoire ne suffit pas, la solution consiste à en ajouter d'autres. Cette approche simple et brutale est le principe fondamental de la stratégie de supercalcul Scale Up de Jensen Huang.
En théorie, l'utilisation de NVSwitch permet de connecter jusqu'à 576 GPU via NVLink. Par coïncidence, cela correspond à la configuration de 8 boîtiers GB200-NVL72, que NVIDIA appelle GB200 SuperPOD.
Chaque NVSwitch fournit jusqu'à 144 interfaces NVLink. Dans une seule armoire, vous auriez besoin de 9 NVSwitch, ce qui donne 72 GPU, chacun entièrement chargé avec 18 connexions NVLink (72 * 18 = 9 * 144).
NVLink propose une connexion GPU tout-à-tout, ce qui signifie que chaque GPU dispose de canaux amont et aval, se connectant à n'importe quel autre GPU du système.
Le NVLink 5 présente un avantage considérable par rapport au produit GH100 précédent : alors que l'ancienne génération autorisait un maximum de 64 canaux NVLink par NVSwitch et 256 GPU dans un système NVLINK, le GB200 peut accueillir 72 GPU dans une seule armoire (6 H100). Pour 256 GPU répartis sur 8 armoires, vous aurez besoin d'un total de 72 NVSwitch (9 * 8).
Entre les armoires, les cartes réseau de la série ConnectX de NVIDIA, utilisant les normes InfiniBand, se connectent via Ethernet à 400 Go/s. Cela explique les câbles bleus visibles à l'arrière de la configuration illustrée. Un OSFP 800G prend généralement en charge 2 canaux à 400 Go/s ou 8 canaux à 100 Go/s.
Une autre approche non conventionnelle consiste à utiliser des NVSwitches pour interconnecter les armoires les plus éloignées, comme illustré ci-dessous. Dans cette configuration, 8 H100 forment un nœud, ce qui donne 32 nœuds. Chaque nœud se connecte en interne à l'aide de 4 NVSwitches. En suivant la disposition des commutateurs à fibre optique dans le schéma, 18 NVSwitches supplémentaires sont utilisés pour connecter entièrement les interfaces de réserve dans chaque nœud. Cela fait un total de 146 NVSwitches.
Bien que la bande passante globale maximale de NVSwitch soit de 1 Po/s (près de 500 fois celle d'un seul NVLink), sa bande passante maximale non bloquante de 14.4 To/s est bien inférieure aux 130 To/s d'une seule armoire NVL72. Par conséquent, la mise à l'échelle des performances n'est pas sans perte. Pendant la formation, les tâches de communication doivent principalement se produire au sein des armoires, la communication entre les armoires étant réservée à des besoins spécifiques, tels que les mises à jour de gradient après l'achèvement d'un lot.
Sans aucun doute, si vous pouvez vous permettre ces 8 enceintes, votre puissance de calcul (calculs FP4) atteindrait le chiffre stupéfiant de 11.52 Exa FLOPS. Même pour le FP8 couramment utilisé, cela représente 5.76 Exa FLOPS. Impressionnant, n'est-ce pas ?
Cinquième couche de calcul : la super-usine de l'IA
Lors de la précédente conférence GTC en 2023, Huang avait dévoilé une image intrigante : un système capable de prendre en charge 8,000 400 GPU, réalisant la formation d'un modèle de langage expert hybride MoE massif de 20 milliards de paramètres en seulement XNUMX heures, une tâche qui aurait autrement pris trois mois. NVIDIA collabore probablement avec des fournisseurs de cloud comme Azure, et on peut supposer sans risque que ce système est un phénomène mondial unique en son genre.
Le grand nombre de GPU est susceptible de s’interconnecter sur plusieurs SuperPOD à l’aide de commutateurs optiques et d’une topologie en fibre optique. L’ensemble du centre de données deviendra un domaine dominé par les GPU. À l’avenir, parallèlement aux centrales nucléaires, nous pourrions assister à l’essor d’usines informatiques, à l’image du prophète Roboam de la série télévisée « Westworld ». Ces usines créeront l’intelligence artificielle générale (AGI) et pourraient potentiellement dominer le monde humain.
Ci-dessous, vous trouverez un diagramme conceptuel de l'usine informatique, suivi d'une image de Roboam :
Et en ce qui concerne la puissance de calcul ? Si vous êtes toujours curieux, réfléchissez à ceci : avec 8,000 20 GPU (soit 4 fois l'estimation de SuperPOD), les calculs du FP220 atteindraient un nombre sans précédent de 8 Exa FLOPS. Même pour le FP115, couramment utilisé, nous envisageons XNUMX Exa FLOPS.
Produits associés:
- NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m sur OM3/50m sur OM4 MTP/MPO-12 Module émetteur-récepteur optique FEC multimode $650.00
- NVIDIA MMA4Z00-NS-FLT Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $850.00
- NVIDIA MMA4Z00-NS Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $750.00
- NVIDIA MMS4X00-NM Compatible 800Gb/s double port OSFP 2x400G PAM4 1310nm 500m DOM double MTP/MPO-12 Module émetteur-récepteur optique SMF $1100.00
- NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 Module émetteur-récepteur optique SMF $1200.00
- NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Module Émetteur-Récepteur Optique $800.00
- Mellanox MMA1T00-HS Compatible 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 Module émetteur-récepteur optique $200.00
- NVIDIA MFP7E10-N010 Compatible 10 m (33 pieds) 8 fibres faible perte d'insertion femelle à femelle câble tronc MPO polarité B APC vers APC LSZH multimode OM3 50/125 $47.00
- NVIDIA MCP7Y00-N003-FLT Compatible 3m (10ft) OSFP double port 800G à 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $275.00
- NVIDIA MCP7Y70-H002 Compatible 2 m (7 pieds) 400G double port 2x200G OSFP à 4x100G QSFP56 câble en cuivre à connexion directe à dérivation passive $155.00
- Câble en cuivre actif NVIDIA MCA4J80-N003-FTF 3 m (10 pieds) 800G double port 2x400G OSFP vers 2x400G OSFP InfiniBand NDR, dessus plat à une extrémité et dessus à ailettes à l'autre $600.00
- NVIDIA MCP7Y10-N002 Compatible 2 m (7 pieds) 800G InfiniBand NDR double port OSFP vers 2x400G QSFP112 Breakout DAC $200.00