AI コンピューティング ネットワークの分野をさらに深く掘り下げてみると、市場には InfiniBand と RoCEv2 という XNUMX つの主流アーキテクチャがあることがわかります。
これら 2 つのネットワーク アーキテクチャは、パフォーマンス、コスト、汎用性、その他の重要な側面で互いに競合しています。これら XNUMX つのアーキテクチャの技術的特徴、AI インテリジェント コンピューティング ネットワークでの適用シナリオ、それぞれの利点と制限を分析します。この記事の目的は、AI コンピューティング ネットワークにおける InfiniBand と RoCEvXNUMX の潜在的なアプリケーション価値と将来の開発方向を評価し、業界に深い洞察と専門的なガイダンスを提供することです。
ネットワーク アーキテクチャ InfiniBand ネットワークは、主にサブネット マネージャ (SM) によって集中管理されます。SM は通常、サブネットに接続されたサーバー上に展開され、ネットワークの中央コントローラとして機能します。サブネット内に SM として構成されたデバイスが複数ある場合がありますが、マスター SM として指定されるのは 1 つだけです。マスター SM は、管理データ メッセージ (MAD) の内部配布とアップロードを通じて、すべてのスイッチとネットワーク カードの管理を担当します。各ネットワーク カード ポートとスイッチ チップは、ネットワーク内のデバイスの一意性と正確性を確保するために、SM によって割り当てられた一意の識別子 (ローカル ID、LID) によって識別されます。SM の主な役割には、ネットワークのルーティング情報を維持し、スイッチング チップのルーティング テーブルを計算および更新することが含まれます。ネットワーク カード内の SM エージェント (SMA) 機能により、ネットワーク カードはサーバーの介入なしに SM から送信されたメッセージを独立して処理できるため、ネットワークの自動化と効率が向上します。
InfiniBand ネットワーク アーキテクチャ図
- InfiniBand ネットワークフロー制御メカニズム
InfiniBand ネットワークはクレジット メカニズムに基づいており、各リンクにはプリセット バッファが装備されています。送信側は、受信側に十分なバッファがあることを確認した後にのみデータの送信を開始します。送信するデータの量は、受信側が現在使用できるプリセット バッファの最大容量を超えることはできません。受信側がメッセージを受信すると、バッファを解放し、現在使用可能なプリセット バッファ サイズを送信側に通知します。これにより、ネットワークのスムーズな動作とデータ転送の継続性が維持されます。
- InfiniBand ネットワークの機能:
リンクレベルのフロー制御と適応型ルーティング InfiniBand ネットワークは、リンクレベルのフロー制御メカニズムを利用して過剰なデータの送信を防ぎ、バッファオーバーフローやデータパケットの損失を回避します。同時に、InfiniBand ネットワークの適応型ルーティング技術は、各データパケットの特定の状況に基づいて動的なルーティング選択を実行し、超大規模ネットワーク環境でネットワークリソースのリアルタイム最適化と最適な負荷分散を実現します。
RoCEv2
ネットワーク アーキテクチャ RoCE (RDMA over Converged Ethernet) プロトコルは、イーサネット上で RDMA (リモート ダイレクト メモリ アクセス) を実行できるクラスター ネットワーク通信プロトコルです。このプロトコルには、RoCEv1 と RoCEv2 の 1 つの主要なバージョンがあります。リンク層プロトコルである RoCEv2 では、通信する両方の当事者が同じレイヤー 2 ネットワーク内に配置されている必要があります。RoCEv2 は、イーサネット ネットワーク層と UDP トランスポート層を使用して InfiniBand ネットワーク層を置き換えるネットワーク層プロトコルであり、より優れたスケーラビリティを提供します。InfiniBand ネットワークの集中管理とは異なり、RoCEvXNUMX は、通常 XNUMX つの層で構成される純粋な分散アーキテクチャを使用しており、スケーラビリティと展開の柔軟性に大きな利点があります。
RoCEv2 ネットワークのアーキテクチャ図
- RoCEv2 ネットワークのフロー制御メカニズム
優先フロー制御 (PFC) は、ウォーターマークを適切に設定してスイッチ キャッシュを最大限に活用し、イーサネット ネットワークでロスのない伝送を実現するホップバイホップのフロー制御戦略です。ダウンストリーム スイッチ ポートのバッファが過負荷になると、スイッチはアップストリーム デバイスに送信を停止するように要求します。送信されたデータは、ダウンストリーム スイッチのキャッシュに保存されます。キャッシュが正常に戻ると、ポートはデータ パケットの送信を再開するように要求し、ネットワークのスムーズな動作を維持します。明示的輻輳通知 (ECN) は、IP 層とトランスポート層に基づくフロー制御とエンドツーエンドの輻輳通知メカニズムを定義します。輻輳制御の目的は、スイッチ上のサーバーに特定の輻輳情報を送信し、サーバーがそれをクライアントに送信してソース エンドに速度を落とすように通知することで達成されます。データ センター量子化輻輳通知 (DCQCN) は、明示的輻輳通知 (ECN) と優先フロー制御 (PFC) メカニズムの組み合わせであり、エンドツーエンドのロスレス イーサネット通信をサポートするように設計されています。コアコンセプトは、ネットワーク輻輳が発生したときに ECN を使用して送信者に通知し、送信速度を下げ、PFC の不要なアクティブ化を防ぎ、深刻な輻輳によるバッファオーバーフローを回避することです。このきめ細かいフロー制御により、DCQCN は輻輳によるデータ損失を回避しながら、効率的なネットワーク操作を維持できます。
- RoCEv2 ネットワーク機能: 強力な互換性とコスト最適化
RoCE ネットワークは RDMA テクノロジを使用して、リモート サーバーの CPU サイクルを占有せずに効率的なデータ転送を実現し、帯域幅を最大限に活用してネットワークのスケーラビリティを強化します。このアプローチにより、ネットワークの遅延が大幅に短縮され、スループットが向上し、ネットワーク全体のパフォーマンスが向上します。RoCE ソリューションのもう 1 つの大きな利点は、既存のイーサネット インフラストラクチャにシームレスに統合できることです。つまり、企業は新しい機器に投資したり、機器を交換したりすることなく、パフォーマンスを大幅に向上させることができます。このコスト効率の高いネットワーク アップグレード方法は、企業の設備投資を削減する上で重要であり、RoCE はインテリジェント コンピューティング センターのネットワーク パフォーマンスを向上させるための推奨ソリューションとなっています。
InfiniBand と RoCEv2 の技術的な違い
市場のネットワークに対する多様な要求により、InfiniBand と RoCEv2 ネットワーク アーキテクチャの共同開発が進められています。InfiniBand ネットワークは、効率的な転送パフォーマンス、迅速な障害回復時間、拡張性の向上、運用と保守の効率化など、高度なテクノロジーにより、アプリケーション レイヤー サービスのパフォーマンスに大きな利点があることが実証されています。特に、大規模なシナリオで優れたネットワーク スループット パフォーマンスを提供できます。
InfiniBand ネットワークと RoCEv2 テクノロジーの比較表
RoCEv2 ネットワークは、その高い汎用性と低コストで好評を得ています。高性能 RDMA ネットワークの構築に適しているだけでなく、既存のイーサネット インフラストラクチャとシームレスに互換性があります。これにより、RoCEv2 は幅広さと適用性において明らかな利点を持ち、さまざまな規模とニーズのネットワーク アプリケーションに対応できます。これら XNUMX つのアーキテクチャのそれぞれの特徴と利点は、AI コンピューティング センターのネットワーク設計に豊富なオプションを提供し、さまざまなユーザーの特定のニーズに対応します。
関連製品:
- NVIDIA MMA4Z00-NS400 互換 400G OSFP SR4 フラットトップ PAM4 850nm OM30 で 3m/OM50 で 4m MTP/MPO-12 マルチモード FEC 光トランシーバ モジュール $650.00
- NVIDIA MMA4Z00-NS-FLT 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $850.00
- NVIDIA MMA4Z00-NS 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $750.00
- NVIDIA MMS4X00-NM 互換 800Gb/s ツインポート OSFP 2x400G PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $1100.00
- NVIDIA MMS4X00-NM-FLT 互換 800G ツインポート OSFP 2x400G フラットトップ PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $1200.00
- NVIDIA MMS4X00-NS400 互換 400G OSFP DR4 フラットトップ PAM4 1310nm MTP/MPO-12 500m SMF FEC 光トランシーバー モジュール $800.00
- Mellanox MMA1T00-HS 互換 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 光トランシーバー モジュール $200.00
- NVIDIA MCA7J60-N004 互換 4 メートル (13 フィート) 800G ツインポート OSFP から 2x400G OSFP InfiniBand NDR ブレークアウト アクティブ銅線ケーブル $800.00
- NVIDIA MCP7Y60-H01A 互換 1.5m (5 フィート) 400G OSFP から 2x200G QSFP56 パッシブ ダイレクト アタッチ ケーブル $116.00
- Mellanox MCP1600-E00AE30 互換 0.5m InfiniBand EDR 100G QSFP28 - QSFP28 銅線直接接続ケーブル $25.00
- NVIDIA Mellanox MCX653106A-ECAT-SP ConnectX-6 InfiniBand/VPI アダプター カード、HDR100/EDR/100G、デュアルポート QSFP56、PCIe3.0/4.0 x16、トール ブラケット $828.00
- NVIDIA Mellanox MCX653105A-ECAT-SP ConnectX-6 InfiniBand/VPI アダプター カード、HDR100/EDR/100G、シングルポート QSFP56、PCIe3.0/4.0 x16、トール ブラケット $690.00