NVIDIA a lancé Blackwell B200 en mars de cette année, connue comme la puce IA la plus puissante au monde. En quoi est-il différent des précédents A100, A800, H100 et H800 ?
Blackwell B200
Évolution de l'architecture des GPU NVIDIA
Passons d'abord en revue l'historique du développement de la puissance de calcul des cartes accélératrices NVIDIA AI :
La première génération de cartes accélératrices d'IA s'appelle Volta, qui est la première architecture à noyau tensoriel de NVIDIA conçue spécifiquement pour l'informatique IA.
L'architecture informatique tensorielle de deuxième génération s'appelle Turing, qui représente la carte graphique T4.
L'architecture informatique tensorielle de troisième génération Ampere est enfin arrivé aux cartes graphiques de la série A100 que nous connaissons mieux.
Avec la prise en charge des mises à niveau du processus de puce, le SM d'une seule carte a doublé pour atteindre 108. Le nombre de cœurs du SM est le même que celui du V100, mais grâce à la mise à niveau du circuit de l'unité de calcul, le cœur peut compléter 256 cœurs flottants. -multiplications et accumulations de points dans chaque cycle, soit le double de celle de l'ancienne architecture. Le mode de calcul 8 bits à virgule flottante (FP8) a été ajouté pour mieux répondre aux besoins du deep learning de l'époque. Un cœur à virgule flottante de 16 bits peut être calculé comme deux cœurs à virgule flottante de 8 bits, doublant ainsi la puissance de calcul. La fréquence principale a légèrement baissé à 1.41 GHz. Ainsi, au final, la puissance de calcul de la carte graphique A100 a atteint près de 5 fois celle du V100, soit 108*8*256*1.41 GHz*2 = 624 TFLOPS (FP8).
Architecture d'Ampère
L'architecture Hopper de quatrième génération est la carte graphique de la série H100 que NVIDIA vient de sortir l'année dernière, a été adoptée par OpenAI pour la formation de grands modèles de langage et a été interdite en raison de problèmes de puissance de calcul.
Le nombre de SM (132) de cette carte graphique n'a pas augmenté de manière significative par rapport à la génération précédente, mais en raison de la nouvelle architecture Tensor Core et de la conception de la mémoire asynchrone, le nombre de multiplications et d'accumulations FP16 pouvant être complétées par un seul cœur SM en un cycle a doublé pour atteindre 512 fois. La fréquence principale a été légèrement augmentée à 1.83 GHz, et la puissance de calcul d'une seule carte a finalement atteint un étonnant Tera FLOPS (FP1978) de 8, qui était la première fois qu'elle entrait dans le domaine des PFLOPS (1.97 Peta FLOPS).
Architecture de la trémie
Quel genre de progrès a l'architecture Blackwell de cinquième génération fait sur cette échelle de puissance de calcul ? Selon les données publiques, si la nouvelle unité de données FP4 est adoptée, le GB200 sera capable d'atteindre une puissance de calcul de 20 Peta FLOPS dans les tâches de raisonnement. S'il est restauré au FP8, il devrait également avoir un incroyable 10 PFLOPS, soit environ 5 fois l'amélioration par rapport au H100.
Les données publiques montrent que la fréquence principale du processeur de Blackwell est de 2.1 GHz. En supposant que l’architecture ne soit pas significativement mise à jour, Blackwell disposera de 600 SM, soit près de quatre fois celle du H100. Blackwell a deux puces, donc le nombre de SM dans une carte graphique à puce unique est deux fois supérieur à celui du H100.
On peut en conclure qu'à chaque génération de mise à niveau de l'architecture, la puissance de calcul d'un seul GPU a augmenté plusieurs fois. Ici, nous répertorions le tableau de progression de la puissance de calcul depuis l'architecture Volta jusqu'à aujourd'hui pour votre référence :
Tableau de progression de la puissance de calcul
A100 contre A800, H100 contre H800
Pourquoi avons-nous besoin d’A800 alors que nous avons A100 ? Parlons d'abord du contexte.
En octobre 2022, les États-Unis ont introduit de nouvelles réglementations visant à restreindre les exportations de semi-conducteurs vers la Chine, notamment des restrictions à l'exportation de puces informatiques hautes performances vers la Chine continentale. Les mesures de performances de la puce A100 de NVIDIA sont utilisées comme norme limitative, c'est-à-dire que les puces de calcul hautes performances qui remplissent les deux conditions suivantes sont réglementées :
(1) Le taux de transmission de la bande passante E/S de la puce est supérieur ou égal à 600 G octet/s ;
(2) La somme de la longueur en bits de chaque opération de « l'unité de traitement numérique, unité de calcul brute » multipliée par la puissance de calcul calculée par TOPS est supérieure ou égale à 4800TOPS.
Les conditions rendent impossible l’exportation de puces AI NVIDIA A100/H100 et AMD MI200/300 vers la Chine.
Comparaison des GPU Nvidia et AMD
Afin de se conformer aux restrictions américaines tout en répondant aux besoins des clients chinois, NVIDIA a lancé l'A800, un remplaçant de l'A100. À en juger par les paramètres officiels, l'A800 réduit principalement le taux de transmission de NVLink de 600 Go/s de l'A100 à 400 Go/s, les autres paramètres étant fondamentalement les mêmes que ceux de l'A100.
En 2023, NVIDIA a lancé la nouvelle génération de GPU H100 basée sur un processus 4 nm, avec 80 milliards de transistors et 18,432 800 cœurs. De même, NVIDIA a également lancé une version spéciale du HXNUMX pour le marché chinois.
Comparaison des puces
En fait, l'A800 a apporté des ajustements à la bande passante d'interconnexion, à savoir la partie chaîne et maillon à N dimensions, passant de 600 G/s de l'A100 à 400 G/s. Cependant, dans d’autres aspects, tels que la double précision, la simple précision et la semi-précision, la puissance de calcul de l’IA reste inchangée.
Relativement parlant, le H800 a fait des ajustements majeurs. Il a non seulement fait des ajustements en termes de liens, en maintenant 8 NVlinks et 400G La bande passante d'interconnexion bidirectionnelle a également été réduite à zéro, ce qui est essentiel pour le domaine du HPC car la puissance de calcul en double précision du FP64 est directement réduite à un, ce qui signifie qu'il est difficilement utilisable.
Voyons ensuite quelles entreprises seront fortement touchées par les ajustements.
Champ de bataille sur grand modèle : après l'ajustement de l'A800, l'efficacité de l'entraînement sur grand modèle a été réduite. L'A800 SXMM a principalement réduit l'efficacité de la transmission des données entre les cartes GPU et la bande passante a été réduite de 33 %. En prenant GPT-3 comme exemple, son échelle atteint 175 milliards et nécessite plusieurs GPU pour la formation combinée. Si la bande passante est insuffisante, les performances chuteront d'environ 40 %. Compte tenu de la rentabilité des A 800 et H 800, les utilisateurs chinois préfèrent toujours les A 800. Étant donné que les A800 et H800 ajustés ont diminué l'efficacité de la formation et qu'ils doivent échanger certaines données pendant le processus de formation entre les cartes, leur taux de transmission réduit entraîne une diminution de leur efficacité.
HPC : A800 et A100 ont la même puissance de calcul double précision, ils ne sont donc pas impactés dans le domaine du calcul scientifique haute performance. Cependant, ce qui est ennuyeux, c'est que le H800 réduit directement la puissance de calcul en double précision à 1 TFLOPS, son utilisation n'est donc pas autorisée. Cela a un impact énorme sur le domaine du superinformatique.
L’impact est donc évident. Dans les domaines de l’AIGC et du HPC, certaines entreprises chinoises pourraient être distancées par les entreprises étrangères. Ceci est prévisible, donc dans certains cas, si nous voulons que la puissance de calcul atteigne une certaine performance, l'investissement peut être plus élevé. En outre, nous ne pouvons qu'emprunter une société écran à l'étranger et créer une succursale pour confier la formation des grands modèles à l'étranger. Il suffit d'utiliser les résultats de la formation en Chine. Il ne s’agit toutefois que d’une solution temporaire, surtout face au risque de voir les données quitter le pays.
Résumé
Comme nous le savons tous, les États-Unis imposent des restrictions de plus en plus strictes sur les puces chinoises, notamment les GPU. En 2022, les États-Unis ont interdit les puces GPU hautes performances, notamment A100, H100, etc., et en 2023, ils ont interdit les A800, H800, L40, L40S et même la carte graphique de bureau RTX 4090.
Par conséquent, les entreprises technologiques chinoises ajustent également activement leurs stratégies industrielles pour se préparer à réduire l'utilisation des puces Nvidia à l'avenir, évitant ainsi le coût énorme d'un ajustement constant de la technologie pour s'adapter aux nouvelles puces. Les fournisseurs de cloud tels qu'Alibaba et Tencent ont transféré certaines commandes de semi-conducteurs avancés vers des entreprises locales telles que Huawei et se sont davantage appuyés sur leurs puces développées en interne. Des sociétés telles que Baidu et ByteDance ont également pris des mesures similaires. De toute évidence, les entreprises chinoises ont choisi d’explorer la voie à suivre à travers une approche en trois volets : « NVIDIA + puces auto-développées + nationales " .
Produits associés:
- NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m sur OM3/50m sur OM4 MTP/MPO-12 Module émetteur-récepteur optique FEC multimode $650.00
- NVIDIA MMA4Z00-NS-FLT Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $850.00
- NVIDIA MMA4Z00-NS Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $750.00
- NVIDIA MMS4X00-NM Compatible 800Gb/s double port OSFP 2x400G PAM4 1310nm 500m DOM double MTP/MPO-12 Module émetteur-récepteur optique SMF $1100.00
- NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 Module émetteur-récepteur optique SMF $1200.00
- NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Module Émetteur-Récepteur Optique $800.00
- Mellanox MMA1T00-HS Compatible 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 Module émetteur-récepteur optique $200.00
- NVIDIA MFP7E10-N010 Compatible 10 m (33 pieds) 8 fibres faible perte d'insertion femelle à femelle câble tronc MPO polarité B APC vers APC LSZH multimode OM3 50/125 $47.00
- NVIDIA MCP7Y00-N003-FLT Compatible 3m (10ft) OSFP double port 800G à 2x400G Flat Top OSFP InfiniBand NDR Breakout DAC $275.00
- NVIDIA MCP7Y70-H002 Compatible 2 m (7 pieds) 400G double port 2x200G OSFP à 4x100G QSFP56 câble en cuivre à connexion directe à dérivation passive $155.00
- Câble en cuivre actif NVIDIA MCA4J80-N003-FTF 3 m (10 pieds) 800G double port 2x400G OSFP vers 2x400G OSFP InfiniBand NDR, dessus plat à une extrémité et dessus à ailettes à l'autre $600.00
- NVIDIA MCP7Y10-N002 Compatible 2 m (7 pieds) 800G InfiniBand NDR double port OSFP vers 2x400G QSFP112 Breakout DAC $200.00