AMD : pionnier de l'avenir des marchés du refroidissement liquide pour l'IA

Dans le paysage en constante évolution des infrastructures d'IA, AMD s'impose comme un acteur majeur, notamment dans le domaine des technologies de refroidissement liquide. Alors que les centres de données repoussent les limites de la performance et de l'efficacité, les dernières avancées d'AMD établissent de nouvelles références. FiberMall, fournisseur spécialisé de produits et solutions de communication optique, s'engage à proposer des offres rentables aux centres de données, environnements de cloud computing, réseaux d'entreprise, réseaux d'accès et systèmes sans fil du monde entier. Réputé pour son leadership dans les réseaux de communication basés sur l'IA, FiberMall est le partenaire idéal si vous recherchez des solutions de communication optique de haute qualité et à valeur ajoutée. Pour plus d'informations, vous pouvez consulter leur site web officiel ou contacter directement leur service client.

Ce blog explore les avancées révolutionnaires d'AMD en matière de refroidissement liquide pour l'IA, des clusters GPU massifs à la série innovante MI350. Que vous soyez passionné d'IA, opérateur de centre de données ou investisseur technologique, ces informations illustrent pourquoi AMD devient le fer de lance de la prochaine ère de l'IA.

TensorWave déploie le plus grand cluster de serveurs AMD refroidis par liquide d'Amérique du Nord

TensorWave, étoile montante de l'infrastructure d'IA, a récemment annoncé le déploiement réussi du plus grand cluster d'entraînement GPU AMD d'Amérique du Nord. Alimenté par 8,192 325 accélérateurs GPU Instinct MIXNUMXX, ce cluster est le premier cluster à refroidissement liquide direct (DLC) à grande échelle utilisant ce modèle de GPU.

groupe refroidi par liquide

L'accent mis par TensorWave sur le matériel de pointe d'AMD permet aux entreprises, aux instituts de recherche et aux développeurs de disposer de plateformes informatiques performantes. Ce cluster colossal établit non seulement un record d'échelle, mais insuffle également un nouvel élan au développement de l'IA. Les analystes du secteur soulignent que les clusters basés sur AMD offrent un rapport coût-efficacité supérieur, permettant des économies potentielles allant jusqu'à 30 % par rapport aux clusters AMD. Les systèmes DGX de NVIDIA pour une puissance de calcul équivalente.

À mesure que de plus en plus d'entreprises adoptent les GPU AMD, les coûts d'infrastructure d'IA pourraient encore baisser, accélérant ainsi son adoption dans tous les secteurs. Pour répondre aux besoins de communication optique dans ces configurations hautes performances, FiberMall propose des solutions fiables et optimisées pour l'IA afin de garantir une transmission de données fluide.

AMD dévoile la puce MI350 avec une architecture de refroidissement liquide complète

AMD dévoile la puce MI350 avec une architecture de refroidissement liquide complète, suscitant l'enthousiasme du marché

Le 12 juin 2025, AMD a organisé la conférence « Advancing AI 2025 » à San José, en Californie, où elle a officiellement lancé les accélérateurs GPU de la série Instinct MI350. Ces GPU permettent de réaliser des clusters de calcul à très grande échelle grâce à la collaboration multicartes, avec des nœuds uniques prenant en charge jusqu'à huit cartes en parallèle et fournissant 2,304 3 Go de mémoire HBM80.5E. Les performances atteignent plus de 8 PFlops en précision FP161 et 6 PFlops en calcul basse précision FP4/FP200, rivalisant ainsi avec le GBXNUMX de NVIDIA.

La connectivité intercartes utilise des canaux Infinity Fabric bidirectionnels, tandis que les connexions CPU exploitent le PCIe 128 à 5.0 Gbit/s pour un transfert de données fluide. AMD propose des versions refroidies par air et par liquide ; le refroidissement par air prend en charge jusqu'à 64 cartes, tandis que le refroidissement par liquide s'adapte à 128 cartes (racks 2U-5U) pour répondre à divers besoins de calcul intensif.

MI350
MI355
solution éprouvée à l'échelle du rack

Le module MI350X consomme 1,000 355 W avec un refroidissement par air, tandis que le MI1,400X hautes performances atteint 350 XNUMX W, principalement grâce au refroidissement liquide. Des partenaires comme Supermicro, Pegatron et Gigabyte ont déjà lancé des serveurs à refroidissement liquide de la série MIXNUMX.

Le module MI350X consomme 1,000 XNUMX W avec refroidissement par air
air conditionné
marché mondial des puces IA haut de gamme

Sur le marché mondial des puces d'IA haut de gamme, NVIDIA détient plus de 80 % des parts de marché, mais le retour en force du MI350 d'AMD, égalant les performances du GB200, marque un tournant. Pour les écosystèmes de refroidissement liquide, les progrès d'AMD offrent des alternatives à la domination de NVIDIA, favorisant une concurrence plus saine. Les principaux fournisseurs de cloud, dont les principaux hyperscalers et Neo Cloud, intégreront le MI350, suivis par Dell, HPE et Supermicro. La production de masse a débuté début mars, et les premiers serveurs partenaires et instances CSP sont prévus pour le troisième trimestre 3, nombre d'entre eux étant favorables. liquide refroidi variantes.

activé par l'IA

L'expertise de FiberMall dans les réseaux optiques basés sur l'IA complète ces déploiements, fournissant des interconnexions rentables pour les clusters d'IA à large bande passante.

L'impact moteur d'AMD sur le marché du refroidissement liquide

Le quasi-monopole de NVIDIA a lié les avancées en matière de refroidissement liquide à son écosystème, notamment par des listes blanches restrictives qui dissuadent les partenaires. Les clusters de refroidissement liquide à grande échelle d'AMD et le lancement du MI350 sont une aubaine, qui pourrait mettre NVIDIA au défi, aux côtés d'acteurs comme Huawei. Cela pourrait stimuler les fournisseurs de refroidissement liquide hors de l'orbite de NVIDIA.

AMD affirme que le MI350 augmentera l'efficacité énergétique de la plateforme d'IA de 38 fois en cinq ans, avec des plans pour une autre amélioration de 20 fois d'ici 2030, réduisant ainsi la consommation d'énergie jusqu'à 95 %.

Plongée en profondeur : puces AMD série MI350, OAM, UBB, serveurs refroidis par liquide et déploiements en rack

Lors de l'Advancing AI 2025, AMD a présenté la série Instinct MI350, comprenant MI350X et MI355X, prête à concurrencer directement Blackwell de NVIDIA.

1771-2585c4d9a774b14c07552820192fdd11

Présentation de l'Instinct MI350

Les deux modèles sont équipés de 288 Go de mémoire HBM3E avec une bande passante de 8 To/s. Le MI355X offre des performances optimales : FP64 à 79 TFlops, FP16 à 5 PFlops, FP8 à 10 PFlops et FP6/FP4 à 20 PFlops, avec un TDP allant jusqu'à 1,400 350 W. Le MI8X est réduit de 18.4 %, atteignant un pic à 4 PFlops en FP1,000 avec un TDP de XNUMX XNUMX W.

Puces AMD Instinct série MI350

Les MI350X et MI355X partagent une conception de puce, construite sur une architecture de liaison hybride 3D utilisant les processus 3 nm (N3P) et 6 nm de TSMC.

Pack AMD Instinct MI350
Angle du package AMD Instinct MI350

Comparaison : AMD MI350X vs. NVIDIA B200/GB200

ParamètreAMD MI350XNvidia B200NVIDIA GB200
ArchitectureADNc 4 (liaison hybride 3D)Blackwell (intégration à double matrice)Processeur Blackwell + Grace (double B200 + 1 Grace)
Noeud de processusBoîtier hybride TSMC 3 nm (N3P) + 6 nm (IOD)TSMC 4 nm (N4P)TSMC 4 nm (N4P)
Transistors185 milliard208 milliard416 milliards (double B200)
Configuration de la mémoire288 Go HBM3E (pile 12Hi), bande passante 8 To/s192 Go HBM3E (pile 8Hi), bande passante 7.7 To/s384 Go HBM3E (double B200), bande passante de 15.4 To/s
Calcul FP418.4 PFLOPS (36.8 PFLOPS clairsemés)20 PFLOPS (FP4 dense)40 PFLOPS (double B200)
Calcul FP89.2 PFLOPS (18.4 PFLOPS clairsemés)10hXNUMX FPLOPS20hXNUMX FPLOPS
Calcul FP32144 TFLOPS75 TFLOPS150 TFLOPS
Calcul FP6472 TFLOPS (2x B200 Double Précision)37 TFLOPS74 TFLOPS
InterconnectInfinity Fabric 153.6 Go/s (8 cartes/nœud), Ultra Ethernet vers 128 cartesNVLink 1.8 5.0 To/s (par carte), 576 cartes dans NVL721.8 To/s NVLink 5.0 (par B200), 129.6 To/s bidirectionnel dans un cluster de 72 cartes
Consommation d'énergie1000 W (refroidi par air)1000 W (refroidi par liquide)2700 W (double B200 + Grace)
Écosystème logicielROCm 7 avec optimisation PyTorch/TensorFlow, prise en charge FP4/FP6CUDA 12.5+ avec précision FP4/FP8, inférence TensorRT-LLMCUDA 12.5+ avec optimisation du processeur Grace pour les modèles à mille milliards de paramètres
Performances typiquesLlama 3.1 405B Inference 30 % plus rapide que B200 ; FP8 4 cartes à 147 PFLOPSFormation GPT-3 4x H100 ; Inférence FP4 sur une seule carte 5x H100NVL72 FP72 4 cartes à 1.4 EFLOPS ; coût d'inférence 25 % inférieur à H100
Prix ​​(2025)25,000 67 $ (augmentation récente de 17 %, toujours 200 % en dessous de BXNUMX)$30,00060,000 200 $ et plus (double BXNUMX + Grace)
EfficacitéBande passante HBM 30 % supérieure par watt ; 40 % de jetons en plus par dollar que le B200FP25 4 % plus élevé par transistor ; efficacité NVLink 50 % meilleure14.8 PFLOPS/W en refroidissement liquide pour FP4
DifférenciationInférence double précision unique FP6/FP4 ; 288 Go pour les modèles à 520 B paramètresMoteur de transformateur de 2e génération pour FP4 ; RAS au niveau de la puce pour plus de fiabilitéMémoire unifiée Grace CPU ; moteur de décompression pour le chargement des données

Le MI350X dispose de 60 % de mémoire en plus que le B200 (192 Go) avec une bande passante équivalente. Il est environ 64 fois plus performant en FP32/FP1, jusqu'à 6 fois plus performant en FP1.2 et environ 10 % en basse précision. L'inférence est égale ou supérieure de 30 %, tandis que l'entraînement est comparable ou supérieur de 10 % ou plus en réglage fin FP8, le tout avec un meilleur rapport coût-efficacité (40 % de jetons en plus par dollar).

AMD Instinct MI350 OAM

Le facteur de forme OAM est compact, avec un PCB épais similaire au MI325X.

AMD Instinct MI350 OAM Package 800x522

AMD Instinct MI350 UBB

Voici le package MI350 OAM installé dans un UBB aux côtés de sept autres GPU pour un total de huit.

AMD Instinct MI350 sur GPU UBB 8 sans refroidissement 2

AMD Instinct MI350 sur GPU UBB 8 sans refroidissement 2

Voici un autre angle de vue.

AMD Instinct MI350 sur GPU UBB 8 sans refroidissement 1

AMD Instinct MI350 sur GPU UBB 8 sans refroidissement 1

Voici un aperçu de l'ensemble de l'UBB avec huit GPU installés.

GPU AMD Instinct MI350 UBB 8 sans refroidissement

GPU AMD Instinct MI350 UBB 8 sans refroidissement

À bien des égards, cette carte est similaire à la carte AMD Instinct MI325X de la génération précédente, et c'est là tout l'intérêt.

AMD Instinct MI350 sur GPU UBB 8 sans refroidissement 3

AMD Instinct MI350 sur GPU UBB 8 sans refroidissement 3

D'un côté, nous avons les connecteurs UBB et un dissipateur thermique pour les retimers PCIe.

Resynchronisations AMD Instinct MI350X UBB PCIe

Il existe également un SMC pour la gestion.

AMD Instinct MI350 SMC

AMD Instinct MI350 SMC

Au-delà de la carte elle-même, il y a aussi le refroidissement.

Refroidissement par air AMD Instinct MI350X

Voici un module OAM équipé d'un grand dissipateur thermique à refroidissement par air. Ce module est un AMD Instinct MI350X.

Refroidisseur AMD Instinct MI350X

Refroidisseur AMD Instinct MI350X

En voici huit sur l'UBB. C'est similaire à ce que nous avons vu ci-dessus, mais avec les huit gros dissipateurs thermiques.

GPU AMD Instinct MI350X UBB 8

GPU AMD Instinct MI350X UBB 8

Voici une autre vue des dissipateurs thermiques du côté SMC et de la poignée.

Profil du dissipateur thermique du GPU AMD Instinct MI350X UBB 8

Profil du dissipateur thermique du GPU AMD Instinct MI350X UBB 8

Pour référence, voici l'UBB de l'AMD MI300X :

MI300X 8 GPU OAM UBB 1

AMD MI300X 8 GPU OAM UBB 1

AMD propose également la version MI355X refroidie par liquide, qui permet un TDP plus élevé et des performances plus élevées par carte.

Serveurs IA AMD série MI350

Les partenaires incluent Supermicro (4U/2U refroidi par liquide, jusqu'à huit MI355X), Compal (7U, jusqu'à huit) et ASRock (4U, huit MI355X).

Déploiements de racks MI350

Nœuds individuels : huit cartes maximum (2,304 161 Go de mémoire, jusqu'à 6 PFlops FP4/FP64). Le refroidissement par air permet d'accueillir jusqu'à 128 cartes ; le refroidissement liquide jusqu'à 128. Une configuration de 36 cartes offre 2.57 To de mémoire et jusqu'à 6 EFlops FP4/FPXNUMX.

Conclusion : la révolution du refroidissement liquide d’AMD

La série MI350 d'AMD et le cluster TensorWave marquent une évolution majeure du refroidissement liquide de l'IA, remettant en cause les monopoles et améliorant l'efficacité. Face à l'explosion des besoins en IA, ces innovations promettent économies et évolutivité.

FiberMall est prêt à soutenir votre infrastructure d'IA avec des solutions de communication optique de pointe. Visitez notre site web ou contactez le service client pour des conseils personnalisés.

Laisser un commentaire

Remonter en haut