Impact des câbles électriques actifs (AEC) sur le remplacement des modules optiques

Vue d'ensemble

L'année dernière, en raison de la réduction des dépenses informatiques à usage général par le cloud computing traditionnel et des commandes d'IA absorbées par NVIDIA, AEC n'a pas pleinement bénéficié des demandes d'interconnexion à haut débit, ce qui a entraîné un marché relativement lent.

À partir du second semestre de cette année, alors que les fournisseurs de cloud ont commencé à contrôler leurs déploiements de réseaux d'IA et que le déploiement de la puissance de calcul des puces auto-développées a augmenté, les avantages de l'AEC (transmission à moyenne et haute distance, taux d'erreur contrôlables et rentabilité) ont été appréciés par davantage de clients, ce qui a conduit à une croissance significative.

Les principaux demandeurs, tels qu'AWS et X.AI, déploient désormais l'AEC à grande échelle pour les interconnexions à haut débit au sein et entre les armoires. Des entreprises comme Microsoft, Google et des entreprises chinoises (Alibaba, ByteDance, etc.) ont également commencé à adopter l'AEC.

Au cours des 1 à 2 prochaines années, le marché de l'AEC devrait connaître un compromis entre volume et prix : un doublement rapide du volume et une baisse progressive des prix. Le marché global devrait connaître une expansion constante et le paysage concurrentiel se diversifiera.

Évolution du marché de l'AEC au cours de la dernière année et demie

L'année dernière, en mai et juin, lorsque NVIDIA a lancé le GB200, des discussions ont eu lieu sur l'utilisation de connexions AEC (Active Electrical Cable), notamment par des entreprises comme FiberMall. À l'époque, Microsoft n'était pas très satisfait du premier lot d'AEC de FiberMall, donc aucune commande importante n'a été passée. L'industrie pensait généralement que l'AEC avait des difficultés à répondre aux exigences des centres de données en termes de distance et de taux d'erreur. Pourquoi, alors, cette technologie est-elle soudainement devenue populaire un an et demi plus tard, avec de grandes entreprises comme Amazon qui passent maintenant des commandes ?

Pourquoi l'AEC est redevenue populaire

Jusqu'à présent, la solution de NVIDIA utilisait des câbles en cuivre. Dans le système GH200, la première couche est composée de huit cartes interconnectées avec le commutateur de première couche à l'aide de ce que l'on appelle des « cartouches », qui sont en fait des faisceaux de câbles en cuivre. Par le passé, NVIDIA n'utilisait pas d'AEC mais des câbles en cuivre passifs (DAC).

Cependant, les réseaux de cloud computing traditionnels utilisaient auparavant l'AEC de FiberMall. L'année dernière, vers février et mars, de nombreuses commandes d'AEC ont été supprimées par Microsoft car les activités de cloud computing traditionnelles ont été étouffées par les investissements dans l'IA, ce qui a conduit à l'annulation ou au report de nombreuses commandes.

À l'époque, l'AEC était principalement utilisé pour les débits moyens à faibles dans les centres de données informatiques à usage général. Le cloud computing traditionnel réduisait les stocks et les dépenses d'investissement, détournant des fonds vers des projets liés à l'IA. L'année dernière n'a pas été favorable à l'AEC, car la croissance de l'IA a été intégrée et packagée par NVIDIA (solutions GPU + interconnexion) et vendue à des fournisseurs de cloud computing, sans laisser de place à l'AEC. NVIDIA utilisait des DAC (Direct Attach Copper) et des AOC (Active Optical Cables) avec des modules optiques multimodes.

Depuis le second semestre de cette année, de plus en plus de clients (fournisseurs de cloud) ont commencé à construire leurs réseaux d'IA de manière indépendante, sans s'appuyer entièrement sur les solutions packagées de NVIDIA. Par conséquent, le secteur de l'AEC a connu une forte augmentation de la demande, notamment avec des commandes notables d'AWS.

Pourquoi NVIDIA persiste avec l'ACC pour l'interconnexion au lieu d'opter pour l'AEC ?

NVIDIA semble privilégier les câbles en cuivre actifs (ACC) par rapport aux câbles AEC. Mais pourquoi est-ce le cas ?

Considérations sur la latence

L'AEC nécessite des puces Retimer pour la resynchronisation du signal, tandis que l'ACC utilise une amplification Redriver plus simple, ce qui se traduit par une latence plus faible. NVIDIA donne la priorité à la latence, ce qui fait de l'ACC l'option la plus attrayante.

Déploiement à haute densité

Les GPU de NVIDIA ont une densité de calcul élevée, avec de courtes distances entre les cartes d'un rack. L'ACC, avec sa faible latence, est adapté à cet environnement. L'avantage de l'AEC réside dans la prise en charge de distances plus longues (5 à 7 mètres), adaptées aux clusters de puces avec une densité de calcul inférieure à celle de NVIDIA, comme Trainium2 d'AWS, qui nécessite l'AEC pour interconnecter de nombreuses cartes sur de plus longues distances.

Différences de coût

NVIDIA considère que la différence de coût entre ACC et AEC est minime. Bien que l'ACC soit légèrement moins chère, sa latence plus faible correspond mieux au positionnement produit de NVIDIA. Du point de vue des fournisseurs de services cloud, l'AEC serait choisi pour les distances plus longues et les structures à faible densité.

Croissance de la demande d'AEC de la part de divers fabricants

AWS (Trainium2)

AWS achète environ 1.5 million de cartes par an, la plupart interconnectées via AEC. Trainium2, avec une puissance de calcul inférieure à celle du H100 de NVIDIA, peut fonctionner avec 400G AEC (au lieu de 800G). Avec l'introduction potentielle de Trainium3 d'ici la fin de l'année, la demande pour 800G AEC pourrait augmenter. Actuellement, FiberMall ne peut pas à elle seule répondre à la demande d'AWS et étend activement sa capacité de production AEC.

Microsoft

Historiquement, les achats d'AEC par Microsoft ont été stables, principalement pour une utilisation dans des centres de données à usage général. La demande d'AEC liée à l'IA n'a pas encore connu de forte augmentation. Microsoft commence maintenant à utiliser l'AEC pour construire des réseaux d'IA, bien que le taux de croissance soit plus lent que celui d'AWS.

Autres fabricants

X.AI a récemment montré une demande importante pour l'AEC, avec une croissance potentiellement supérieure à celle de Microsoft l'année prochaine. Ils achètent massivement des cartes NVIDIA mais préfèrent des solutions rentables comme l'AEC pour les interconnexions de première couche. L'interconnexion TPU de Google (ICI) utilise actuellement des câbles en cuivre passifs (DAC) ; cependant, à mesure que les vitesses augmentent, ils pourraient passer à l'AEC. En Chine, des entreprises comme Alibaba et ByteDance envisagent également ou ont commencé à adopter l'AEC.

La relation entre l’AEC et les modules optiques : substitutive ou complémentaire ?

Structure en couches

Dans un réseau d’IA, les interconnexions peuvent être hiérarchisées comme suit :

Carte GPU/accélératrice ↔ Commutateur Top-of-Rack (ToR)

ToR ↔ Commutateurs de niveau supérieur

Pour la première couche (au sein d'un rack), où les distances sont courtes, différentes options de câblage telles que les câbles en cuivre, AEC, ACC, DAC et AOC sont viables. Les modules optiques sont généralement utilisés pour les distances plus longues entre les racks.

Effet de substitution limité

Le passage des câbles passifs en cuivre (DAC) aux câbles AEC n'a pas d'impact sur les modules optiques. Cependant, les câbles AEC peuvent remplacer partiellement les câbles optiques actifs à courte distance (AOC) ou les modules optiques multimodes, mais il est peu probable que des fabricants comme NVIDIA abandonnent complètement les solutions optiques.

Dans l'ensemble, même si l'AEC peut capturer une part de marché des modules optiques AOC ou multimodes, l'ampleur de cette capture dépend de facteurs tels que les besoins en câblage, la latence, le coût et les considérations de maintenance. Il est difficile de faire des prévisions précises sans détails de conception spécifiques de la part des différents fabricants. Les informations actuelles sur les commandes suggèrent que l'AEC n'aura pas d'impact significatif sur la part des modules optiques.

Taille et perspectives du marché de l'AEC

Taux de croissance

Le marché de l'AEC est évalué à moins de 300 millions de dollars cette année, et devrait doubler pour atteindre environ 600 millions de dollars l'année prochaine. Les volumes d'expédition pourraient passer de 1 à 2 millions d'unités cette année à 5 millions d'unités l'année prochaine, accompagnés d'une baisse des prix.

Tendances des prix

Actuellement, le prix d'un AEC de 400 G est d'environ 150 $, tandis que celui d'un AEC de 800 G est d'environ 250 $. Avec l'arrivée de nouveaux fabricants sur le marché, la concurrence va faire baisser les prix d'environ 20 % par an. L'arrivée de fabricants chinois va encore exercer une pression sur les marges bénéficiaires, ce qui entraînera une baisse globale des prix.

Répartition des clients

  • AWS : devrait être le plus grand contributeur à la croissance, avec plus de 2 millions d'unités d'ici la fin de cette année et l'année prochaine.
  • Microsoft : La croissance incrémentale reste stable, principalement dans le cloud computing et certains réseaux d'IA.
  • X.AI : Connaît une croissance rapide, nécessitant potentiellement 800,000 900,000 à XNUMX XNUMX unités par an.
  • Google/NVIDIA : Seules des mises à niveau mineures sont prévues.
  • Alibaba, ByteDance, etc. en Chine : l'adoption augmente progressivement, contribuant à une tendance générale à la hausse.

Étude de cas : Interconnexion de X.AI avec GB200/B300

X.AI a acheté de nombreuses puces GB200 ou B300 à NVIDIA. Cependant, NVIDIA utilise des câbles en cuivre passifs ou ACC pour son interconnexion interne de 72 cartes, et non AEC. Alors, où X.AI utilise-t-il AEC ?

Dans un rack GPU (72 cartes), la connexion entre les cartes et le commutateur Top-of-Rack (ToR) nécessite des longueurs de câble de plusieurs mètres à plus de 5 mètres. L'AEC peut prendre en charge des longueurs de 5 à 7 mètres. Pour les grandes armoires à haute densité, où les câbles en cuivre doivent se plier et s'enrouler, des longueurs de 3 à 5 mètres ou plus sont souvent nécessaires. Lorsque l'ACC ou le DAC ne répondent pas aux exigences ou entraînent des taux d'erreur plus élevés, l'AEC est nécessaire. Les liaisons du haut de l'armoire vers d'autres commutateurs peuvent utiliser des modules optiques. Par conséquent, l'AEC est utilisé pour la connexion de l'intérieur de l'armoire au commutateur ToR.

Interconnexion TPU de Google

Dans les clusters TPU de Google, 64 puces forment un « cube » (semblable à une armoire), avec des interconnexions internes utilisant ICI. Actuellement, les câbles en cuivre passifs sont principalement utilisés.

Utilisation actuelle du DAC

Pour Google TPU v6, au sein d'une seule armoire de 64 puces, les interconnexions ICI sont majoritairement DAC.

Mise à niveau potentielle vers AEC

À mesure que la vitesse augmente, la distance et les taux d'erreur du DAC peuvent devenir insuffisants, nécessitant des solutions actives comme l'AEC pour garantir la qualité de la transmission.

Impact limité sur les modules optiques

Les connexions au sein de l'armoire ne sont pas longue distance, ce n'est donc pas le champ de bataille principal pour les modules optiques ; les connexions inter-armoires nécessitent généralement des modules optiques ou OCS.

Taux de substitution de l'AEC pour les modules optiques

L’utilisation généralisée de l’AEC réduira-t-elle considérablement les commandes de modules optiques ?

Dans l’ensemble, l’impact est limité. Les modules optiques sont principalement utilisés pour les scénarios inter-armoires et longue distance. Pour la première couche ou certaines interconnexions à courte distance, le choix peut se faire entre DAC, AOC ou AEC. Même au sein d’un même centre de données, les clients peuvent utiliser une combinaison de différentes solutions. L’AEC ne remplacera pas complètement l’AOC ou les modules optiques. Le taux de substitution spécifique dépend de facteurs tels que la conception de la topologie du client, le prix, les coûts de maintenance et les exigences de latence.

Adoption de l'AEC par les fabricants chinois

ByteDance et Alibaba vont-ils commencer à adopter l'AEC ? Et pour quelles puces pourrait-il être utilisé ?

ByteDance

ByteDance achète des puces auprès de plusieurs fournisseurs, dont Cambricon et NVIDIA, avec de nombreuses cartes disposées en parallèle. Plusieurs fournisseurs fournissent également des solutions de câbles en cuivre. Pour Cambricon, des entreprises comme Broadex Technologies fournissent des solutions AEC et AOC.

Alibaba

Alibaba commence à adopter l'AEC 400G, atteignant potentiellement des dizaines de milliers d'unités ou plus, en fonction de la capacité de la chaîne d'approvisionnement à répondre à la demande.

Estimation des prix et perspectives

Les volumes d'AEC devant être multipliés par deux à trois l'année prochaine, les prix pourraient baisser.

Bien que le volume global augmente rapidement, les prix unitaires devraient diminuer dans une certaine mesure. Le marché de cette année est d'environ 200 à 300 millions de dollars, et pourrait atteindre 600 millions de dollars l'année prochaine, avec une croissance continue à un niveau élevé au cours des années suivantes. À mesure que de plus en plus de fabricants entreront en compétition, les prix continueront de baisser et la structure du marché subira une refonte.

Laisser un commentaire

Remonter en haut