Qu'est-ce que IB-InfiniBand
IB, l'abréviation de InfiniBand (traduit par « Bande passante infinie ”, est une norme de communication de réseau informatique pour le calcul haute performance. La technologie IB, caractérisée par un débit extrêmement élevé et une latence extrêmement faible, est utilisée pour l'interconnexion de données entre ordinateurs. InfiniBand est également utilisé comme interconnexion directe ou commutée entre les serveurs et les systèmes de stockage, et comme interconnexion entre les systèmes de stockage. Avec l'essor de l'IA, IB est également devenu populaire et constitue actuellement la méthode de mise en réseau préférée pour les clusters de serveurs GPU haut de gamme.
Voici l'historique du développement d'InfiniBand :
- 1999 : l'InfiniBand Trade Association (IBTA) a publié l'architecture InfiniBand, qui était à l'origine destinée à remplacer le bus PCI.
- En 2000, la version 1.0 de la spécification d'architecture InfiniBand a été officiellement publiée. Puis, en 2001, le premier lot de produits InfiniBand est sorti et de nombreux fabricants ont commencé à lancer des produits prenant en charge InfiniBand, notamment des serveurs, des systèmes de stockage et des équipements réseau.
- En 2003, grâce à son débit élevé et à sa faible latence, InfiniBand s'est tourné vers un nouveau domaine d'application : l'interconnexion de clusters d'ordinateurs HPC, et a été largement utilisé dans les supercalculateurs TOP500 de l'époque.
- En 2004, une autre organisation à but non lucratif importante d'InfiniBand est née : Open Fabrics Alliance (OFA).
- En 2005, InfiniBand a découvert un nouveau scénario : la connexion de périphériques de stockage, et a été continuellement mis à jour et amélioré depuis lors.
- En 2015, la technologie InfiniBand a représenté pour la première fois plus de 50 % des supercalculateurs du TOP500, atteignant 51.4 %. C'est la première fois que la technologie InfiniBand a dépassé la technologie Ethernet pour devenir la technologie de connexion interne la plus populaire dans les supercalculateurs.
- Depuis 2023, la formation de grands modèles d’IA dépend fortement des clusters de calcul haute performance, et les réseaux InfiniBand sont le meilleur partenaire pour les clusters de calcul haute performance.
Principaux avantages de Mellanox et d'IB Network
Relation entre Mellanox et InfiniBand
Aujourd'hui, quand on parle d'IB, la première chose qui vient à l'esprit est Mellanox. En 2019, NVIDIA a dépensé 6.9 milliards de dollars pour acquérir Mellanox en tant que sous-marque. Jensen Huang a déclaré publiquement : « Il s'agit d'une combinaison de deux des plus grandes sociétés de calcul haute performance au monde. NVIDIA se concentre sur le calcul accéléré, et Mellanox se concentre sur l'interconnexion et le stockage. »
Selon les prévisions des organisations industrielles, la taille du marché de InfiniBand atteindra 98.37 milliards de dollars en 2029, soit une augmentation de 14.7 fois par rapport aux 6.66 milliards de dollars de 2021. Porté par le calcul haute performance et l'IA, InfiniBand a un brillant avenir.
Architecture et fonctionnalités du réseau InfiniBand
Un système InfiniBand se compose d’adaptateurs de canaux, de commutateurs, de routeurs, de câbles et de connecteurs, comme illustré dans la figure suivante.

Système InfiniBand
Les principales fonctionnalités sont résumées comme suit :
- Faible latence : latence extrêmement faible et prise en charge native du RDMA
- Bande passante élevée : capacité de transmission de données de 400 Gb/s par port
- Facilité d'utilisation : convient à la création de clusters de centres de données à grande échelle
Réseau IB et RDMA
Lorsque l'on parle de réseau IB, il faut mentionner RDMA. RDMA (Remote Direct Memory Access) a été créé pour résoudre le retard du traitement des données côté serveur dans la transmission réseau. Il peut accéder directement à la mémoire d'un autre hôte ou serveur à partir de la mémoire d'un hôte ou d'un serveur sans utiliser le processeur. Il libère le processeur pour effectuer son travail. Infiniband est une technologie réseau conçue spécifiquement pour RDMA, et le réseau IB prend en charge nativement RDMA.
La puissance de la technologie RDMA est due à son mécanisme de contournement du noyau, qui permet la lecture et l'écriture directes de données entre les applications et les cartes réseau, réduisant ainsi la latence de transmission des données au sein du serveur à près de 1 µs. Roce transfère RDMA vers Ethernet.
Comparaison de deux solutions RDMA grand public (IB et ROCEV2)
- Par rapport aux centres de données traditionnels, les exigences du nouveau réseau de communication du centre informatique intelligent sont plus élevées, telles qu'une faible latence, une large bande passante, une stabilité et une grande échelle.
- InfiniBand et ROCEV2 basés sur RDMA peuvent tous deux répondre aux besoins des réseaux de communication des centres de calcul intelligents.
- InfiniBand présente actuellement plus d’avantages en termes de performances que ROCEV2, tandis que ROCEV2 présente actuellement des avantages sur InfiniBand en termes d’économie et de polyvalence.
Développement et tendance du taux de liaison InfiniBand
En prenant comme exemple la spécification SDR (débit de données unique) initiale, la bande passante du signal d'origine d'une liaison 1X est de 2.5 Gbit/s, celle d'une liaison 4X de 10 Gbit/s et celle d'une liaison 12X de 30 Gbit/s. La bande passante de données réelle d'une liaison 1X est de 2.0 Gbit/s (en raison du codage 8b/10b). Étant donné que la liaison est bidirectionnelle, la bande passante totale par rapport au bus est de 4 Gbit/s. Au fil du temps, la bande passante réseau d'InfiniBand continue de s'améliorer.
Que signifient les DR dans HDR et NDR ? Chaque DR correspond à l'abréviation de chaque génération de technologie IB. DR est un terme général pour le débit de données, 4 canaux étant le principal.
La figure suivante montre la bande passante réseau d'InfiniBand de SDR, DDR, QDR, FDR, EDR à HDR et NDR. La vitesse est basée sur une vitesse de liaison 4x. Actuellement, EDR, HDR et NDR sont les principaux, correspondant aux plates-formes de serveur PICE 3.0, 4.0 et 5.0.
Produits grand public NVIDIA InfiniBand – la situation actuelle des cartes réseau NDR
La carte IB ConnectX-7 (HCA) est dotée de plusieurs formats, notamment des ports simples et doubles, prenant en charge les interfaces OSFP et QSFP112 et des débits de 200 Gbit/s et 400 Gbit/s. La carte réseau CX-7 prend en charge x16 PCle5.0 ou PCle 4.0, qui est conforme aux spécifications CEM. Jusqu'à 16 voies peuvent être connectées avec prise en charge d'une carte auxiliaire en option qui permet 32 voies PCIe 4.0 à l'aide de la technologie NVIDIA Socket Direct®.
D'autres facteurs de forme incluent Open Compute Project (OCP) 3.0 avec un connecteur OSFP, OCP 3.0 avec un connecteur QSFP112 et CEM PCle x16 avec un connecteur QSFP112.
Le dernier commutateur NDR de Mellanox
Les commutateurs IB de Mellanox sont divisés en deux types : les commutateurs à configuration fixe et les commutateurs modulaires. Il est entendu que les derniers commutateurs de la série NDR ne vendent plus de commutateurs à configuration modulaire (bien que le site officiel indique qu'ils sont disponibles, ils ne sont plus en vente).
La série de commutateurs à configuration fixe MQM9700 de NDR est équipée de 32 connecteurs OSFP physiques et prend en charge 64 ports 400 Gb/s (qui peuvent être divisés en 128 ports 200 Gb/s maximum). La série de commutateurs fournit un débit bidirectionnel total de 51.2 Tb/s (bande passante du fond de panier) et un étonnant taux de transfert de paquets de 66.5 milliards par seconde.
Le nombre d'interfaces et les vitesses des sous-modèles sont identiques, les différences résident dans la prise en charge ou non de la fonction de gestion, dans le mode d'alimentation et dans le mode de dissipation de la chaleur. En général, un seul commutateur doté de fonctions de gestion suffit.
Les derniers câbles et modules d'interconnexion de Mellanox
Les câbles et émetteurs-récepteurs LinkX de Mellanox sont généralement utilisés pour relier les commutateurs ToR vers le bas aux cartes réseau et aux périphériques de stockage des serveurs GPU et CPU NVIDIA, et/ou vers le haut dans les applications d'interconnexion de commutateur à commutateur dans toute l'infrastructure réseau.
Câble optique actif (AOC), câble en cuivre à connexion directe (DAC) et le nouveau DAC actif appelé ACC, qui incluent un circuit intégré d'amélioration du signal (IC) à l'extrémité du câble.

Câbles et modules d'interconnexion les plus récents de Mellanox
Liens d'interconnexion typiques de Mellanox
Les commutateurs vers les commutateurs et les commutateurs vers les cartes réseau peuvent être interconnectés via différents câbles, et le commutateur vers la carte réseau peut réaliser une interconnexion 1 à 2 ou 4 à 1.
Topologie de la carte réseau Mellanox en H100
- Le module HGX est connecté logiquement à la tête via 4 ou 8 puces PCIE SW à l'intérieur de la machine H100.
- Chaque logiciel PCIE correspond à deux cartes GPU et à deux cartes réseau, et les huit cartes IB 400G sont conçues pour correspondre une à une avec les huit cartes H100.
- S'il est entièrement équipé de huit cartes IB 400G, il nécessitera d'autres connexions logicielles PCIE du CPU pour ajouter d'autres cartes réseau.

Topologie de la carte réseau Mellanox en H100
Produits associés:
-
NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m sur OM3/50m sur OM4 MTP/MPO-12 Module émetteur-récepteur optique FEC multimode $650.00
-
NVIDIA MMA4Z00-NS-FLT Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $850.00
-
NVIDIA MMA4Z00-NS Compatible 800Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 Module émetteur-récepteur optique MMF $750.00
-
NVIDIA MMS4X00-NM Compatible 800Gb/s double port OSFP 2x400G PAM4 1310nm 500m DOM double MTP/MPO-12 Module émetteur-récepteur optique SMF $1100.00
-
NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 Module émetteur-récepteur optique SMF $1200.00
-
NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Module Émetteur-Récepteur Optique $800.00
-
Mellanox MMA1T00-HS Compatible 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 Module émetteur-récepteur optique $200.00
-
NVIDIA MCA7J60-N004 Compatible 4m (13ft) 800G Twin-port OSFP vers 2x400G OSFP InfiniBand NDR Breakout Câble Cuivre Actif $800.00
-
Câble d'attache directe passif NVIDIA MCP7Y60-H01A compatible 1.5 m (5 pieds) 400G OSFP vers 2x200G QSFP56 $116.00
-
Mellanox MCP1600-E00AE30 Compatible 0.5 m InfiniBand EDR 100G QSFP28 vers QSFP28 Câble de connexion directe en cuivre $25.00
-
Carte adaptateur NVIDIA Mellanox MCX653106A-ECAT-SP ConnectX-6 InfiniBand/VPI, HDR100/EDR/100G, double port QSFP56, PCIe3.0/4.0 x16, support haut $828.00
-
Carte adaptateur NVIDIA Mellanox MCX653105A-ECAT-SP ConnectX-6 InfiniBand/VPI, HDR100/EDR/100G, QSFP56 à port unique, PCIe3.0/4.0 x16, support haut $965.00