Puces Nvidia AI : A100 A800 H100 H800 B200

NVIDIA a lancé Blackwell B200 en mars de cette année, connue comme la puce IA la plus puissante au monde. En quoi est-il différent des précédents A100, A800, H100 et H800 ?

Blackwell B200

Évolution de l'architecture des GPU NVIDIA

Passons d'abord en revue l'historique du développement de la puissance de calcul des cartes accélératrices NVIDIA AI :

La première génération de cartes accélératrices d'IA s'appelle Volta, qui est la première architecture à noyau tensoriel de NVIDIA conçue spécifiquement pour l'informatique IA.

L'architecture informatique tensorielle de deuxième génération s'appelle Turing, qui représente la carte graphique T4.

L'architecture informatique tensorielle de troisième génération Ampere est enfin arrivé aux cartes graphiques de la série A100 que nous connaissons mieux.

Avec la prise en charge des mises à niveau du processus de puce, le SM d'une seule carte a doublé pour atteindre 108. Le nombre de cœurs du SM est le même que celui du V100, mais grâce à la mise à niveau du circuit de l'unité de calcul, le cœur peut compléter 256 cœurs flottants. -multiplications et accumulations de points dans chaque cycle, soit le double de celle de l'ancienne architecture. Le mode de calcul 8 bits à virgule flottante (FP8) a été ajouté pour mieux répondre aux besoins du deep learning de l'époque. Un cœur à virgule flottante de 16 bits peut être calculé comme deux cœurs à virgule flottante de 8 bits, doublant ainsi la puissance de calcul. La fréquence principale a légèrement baissé à 1.41 GHz. Ainsi, au final, la puissance de calcul de la carte graphique A100 a atteint près de 5 fois celle du V100, soit 108*8*256*1.41 GHz*2 = 624 TFLOPS (FP8).

Architecture d'Ampère

L'architecture Hopper de quatrième génération est la carte graphique de la série H100 que NVIDIA vient de sortir l'année dernière, a été adoptée par OpenAI pour la formation de grands modèles de langage et a été interdite en raison de problèmes de puissance de calcul.

Le nombre de SM (132) de cette carte graphique n'a pas augmenté de manière significative par rapport à la génération précédente, mais en raison de la nouvelle architecture Tensor Core et de la conception de la mémoire asynchrone, le nombre de multiplications et d'accumulations FP16 pouvant être complétées par un seul cœur SM en un cycle a doublé pour atteindre 512 fois. La fréquence principale a été légèrement augmentée à 1.83 GHz, et la puissance de calcul d'une seule carte a finalement atteint un étonnant Tera FLOPS (FP1978) de 8, qui était la première fois qu'elle entrait dans le domaine des PFLOPS (1.97 Peta FLOPS).

Architecture de la trémie

Quel genre de progrès a l'architecture Blackwell de cinquième génération fait sur cette échelle de puissance de calcul ? Selon les données publiques, si la nouvelle unité de données FP4 est adoptée, le GB200 sera capable d'atteindre une puissance de calcul de 20 Peta FLOPS dans les tâches de raisonnement. S'il est restauré au FP8, il devrait également avoir un incroyable 10 PFLOPS, soit environ 5 fois l'amélioration par rapport au H100.

Les données publiques montrent que la fréquence principale du processeur de Blackwell est de 2.1 GHz. En supposant que l’architecture ne soit pas significativement mise à jour, Blackwell disposera de 600 SM, soit près de quatre fois celle du H100. Blackwell a deux puces, donc le nombre de SM dans une carte graphique à puce unique est deux fois supérieur à celui du H100.

On peut en conclure qu'à chaque génération de mise à niveau de l'architecture, la puissance de calcul d'un seul GPU a augmenté plusieurs fois. Ici, nous répertorions le tableau de progression de la puissance de calcul depuis l'architecture Volta jusqu'à aujourd'hui pour votre référence :

Tableau de progression de la puissance de calcul

A100 contre A800, H100 contre H800

Pourquoi avons-nous besoin d’A800 alors que nous avons A100 ? Parlons d'abord du contexte.

En octobre 2022, les États-Unis ont introduit de nouvelles réglementations visant à restreindre les exportations de semi-conducteurs vers la Chine, notamment des restrictions à l'exportation de puces informatiques hautes performances vers la Chine continentale. Les mesures de performances de la puce A100 de NVIDIA sont utilisées comme norme limitative, c'est-à-dire que les puces de calcul hautes performances qui remplissent les deux conditions suivantes sont réglementées :

(1) Le taux de transmission de la bande passante E/S de la puce est supérieur ou égal à 600 G octet/s ;

(2) La somme de la longueur en bits de chaque opération de « l'unité de traitement numérique, unité de calcul brute » multipliée par la puissance de calcul calculée par TOPS est supérieure ou égale à 4800TOPS.

Les conditions rendent impossible l’exportation de puces AI NVIDIA A100/H100 et AMD MI200/300 vers la Chine.

Comparaison des GPU Nvidia et AMD

Afin de respecter les restrictions américaines tout en répondant aux besoins des clients chinois, NVIDIA a lancé l'A800, un remplaçant de l'A100. A en juger par le offParamètres iciaux, l'A800 réduit principalement le taux de transmission du NVLink de 600 Go/s de l'A100 à 400 Go/s, avec d'autres paramètres fondamentalement les mêmes que ceux de l'A100.

En 2023, NVIDIA a lancé la nouvelle génération de GPU H100 basée sur un processus 4 nm, avec 80 milliards de transistors et 18,432 800 cœurs. De même, NVIDIA a également lancé une version spéciale du HXNUMX pour le marché chinois.

Comparaison des puces

En fait, l'A800 a apporté des ajustements à la bande passante d'interconnexion, à savoir la partie chaîne et maillon à N dimensions, passant de 600 G/s de l'A100 à 400 G/s. Cependant, dans d’autres aspects, tels que la double précision, la simple précision et la semi-précision, la puissance de calcul de l’IA reste inchangée.

Relativement parlant, le H800 a apporté des ajustements majeurs. Il a non seulement apporté des ajustements en termes de liaisons, en maintenant 8 NVlinks et une bande passante d'interconnexion bidirectionnelle de 400G, mais a également réduit à zéro le calcul en double précision. Ceci est essentiel pour le domaine HPC car la puissance de calcul double précision du FP64 est directement réduite à une, ce qui signifie que vous pouvez difficilement l'utiliser.

Voyons ensuite quelles entreprises seront fortement touchées par les ajustements.

Champ de bataille sur grand modèle : après l'ajustement de l'A800, l'efficacité de l'entraînement sur grand modèle a été réduite. L'A800 SXMM a principalement réduit l'efficacité de la transmission des données entre les cartes GPU et la bande passante a été réduite de 33 %. En prenant GPT-3 comme exemple, son échelle atteint 175 milliards et nécessite plusieurs GPU pour la formation combinée. Si la bande passante est insuffisante, les performances chuteront d'environ 40 %. Compte tenu de la rentabilité des A 800 et H 800, les utilisateurs chinois préfèrent toujours les A 800. Étant donné que les A800 et H800 ajustés ont diminué l'efficacité de la formation et qu'ils doivent échanger certaines données pendant le processus de formation entre les cartes, leur taux de transmission réduit entraîne une diminution de leur efficacité.

HPC : A800 et A100 ont la même puissance de calcul double précision, ils ne sont donc pas impactés dans le domaine du calcul scientifique haute performance. Cependant, ce qui est ennuyeux, c'est que le H800 réduit directement la puissance de calcul en double précision à 1 TFLOPS, son utilisation n'est donc pas autorisée. Cela a un impact énorme sur le domaine du superinformatique.

L’impact est donc évident. Dans les domaines de l’AIGC et du HPC, certaines entreprises chinoises pourraient être distancées par les entreprises étrangères. Ceci est prévisible, donc dans certains cas, si nous voulons que la puissance de calcul atteigne une certaine performance, l'investissement peut être plus élevé. En outre, nous ne pouvons qu'emprunter une société écran à l'étranger et créer une succursale pour confier la formation des grands modèles à l'étranger. Il suffit d'utiliser les résultats de la formation en Chine. Il ne s’agit toutefois que d’une solution temporaire, surtout face au risque de voir les données quitter le pays.

Résumé

Comme nous le savons tous, les États-Unis imposent des restrictions de plus en plus strictes sur les puces chinoises, notamment les GPU. En 2022, les États-Unis ont interdit les puces GPU hautes performances, notamment A100, H100, etc., et en 2023, ils ont interdit les A800, H800, L40, L40S et même la carte graphique de bureau RTX 4090.

Par conséquent, les entreprises technologiques chinoises ajustent également activement leurs stratégies industrielles pour se préparer à réduire l'utilisation des puces Nvidia à l'avenir, évitant ainsi le coût énorme d'un ajustement constant de la technologie pour s'adapter aux nouvelles puces. Les fournisseurs de cloud tels qu'Alibaba et Tencent ont transféré certaines commandes de semi-conducteurs avancés vers des entreprises locales telles que Huawei et se sont davantage appuyés sur leurs puces développées en interne. Des sociétés telles que Baidu et ByteDance ont également pris des mesures similaires. De toute évidence, les entreprises chinoises ont choisi d’explorer la voie à suivre à travers une approche en trois volets : « NVIDIA + puces auto-développées + nationales " .

Laisser un commentaire

Remonter en haut