IB ネットワークと Mellanox 製品

IB-InfiniBandとは

IBはInfiniBandの略称(「 無限の帯域幅 InfiniBand(インフィニバンド)は、高性能コンピューティングのためのコンピュータネットワーク通信規格です。極めて高いスループットと極めて低いレイテンシを特徴とするIBテクノロジーは、コンピュータ間のデータ相互接続に使用されます。また、サーバーとストレージシステム間の直接またはスイッチ相互接続、およびストレージシステム間の相互接続としても使用されます。AIの台頭により、IBも普及し、現在ではハイエンドGPUサーバークラスターの推奨ネットワーク方式となっています。

InfiniBand の開発履歴は次のとおりです。

  • 1999 年: InfiniBand Trade Association (IBTA) は、当初は PCI バスの置き換えを目的としていた InfiniBand アーキテクチャをリリースしました。
  • 2000 年に、InfiniBand アーキテクチャ仕様のバージョン 1.0 が正式にリリースされました。その後、2001 年に最初の一連の InfiniBand 製品がリリースされ、多くのメーカーがサーバー、ストレージ システム、ネットワーク機器など、InfiniBand をサポートする製品を発売し始めました。
  • 2003 年、InfiniBand は、その高いスループットと低レイテンシにより、HPC コンピュータ クラスターの相互接続という新しいアプリケーション領域に転向し、当時の TOP500 スーパーコンピュータで広く使用されました。
  • 2004 年には、もう XNUMX つの重要な InfiniBand 非営利団体である Open Fabrics Alliance (OFA) が誕生しました。
  • 2005 年、InfiniBand はストレージ デバイスの接続という新しいシナリオを発見し、それ以来継続的に更新および反復されてきました。
  • 2015年、InfiniBand技術は初めてTOP50スーパーコンピューターの500%以上を占め、51.4%に達しました。これは、InfiniBand技術がイーサネット技術を上回り、スーパーコンピューターで最も人気のある内部接続技術となった初めてのケースです。
  • 2023 年以降、AI 大規模モデルのトレーニングは高性能コンピューティング クラスターに大きく依存しており、InfiniBand ネットワークは高性能コンピューティング クラスターの最適なパートナーです。

MellanoxとIBネットワークのコアな利点

Mellanox と InfiniBand の関係

現在、IBと言えば、まず頭に浮かぶのはメラノックスです。2019年、NVIDIAは6.9億ドルを投じてメラノックスをサブブランドとして買収しました。ジェンセン・フアン氏は公にこう述べています。「これは、世界有数の高性能コンピューティング企業XNUMX社の合併です。NVIDIAはアクセラレーテッドコンピューティングに注力し、メラノックスは相互接続とストレージに注力しています。」

業界団体の予測によると、 98.37年には2029億米ドルに達し、14.7年の6.66億米ドルから2021倍に増加すると予想されています。高性能コンピューティングとAIによって推進されるInfiniBandには明るい未来が待っています。

 InfiniBand ネットワークのアーキテクチャと機能

InfiniBand システムは、次の図に示すように、チャネル アダプタ、スイッチ、ルーター、ケーブル、およびコネクタで構成されます。

InfiniBand システム

InfiniBand システム

コア機能は次のようにまとめられます。

  • 低レイテンシ: 極めて低いレイテンシとRDMAのネイティブサポート
  • 高帯域幅: ポートあたり 400Gb/s のデータ伝送能力
  • 使いやすさ: 大規模なデータセンタークラスターの構築に適しています

IB ネットワークと RDMA

IB ネットワークについて語るとき、RDMA について触れなければなりません。RDMA (Remote Direct Memory Access) は、ネットワーク転送におけるサーバー側データ処理の遅延を解決するために作成されました。CPU を使用せずに、1 つのホストまたはサーバーのメモリから別のホストまたはサーバーのメモリに直接アクセスできます。これにより、CPU が解放され、その作業を実行できるようになります。Infiniband は RDMA 専用に設計されたネットワーク テクノロジであり、IB ネットワークはネイティブで RDMA をサポートしています。

RDMA テクノロジーが非常に強力である理由は、カーネル バイパス メカニズムにあります。これにより、アプリケーションとネットワーク カード間で直接データの読み取りと書き込みが可能になり、サーバー内のデータ転送の遅延が 1us 近くにまで短縮されます。Roce は、RDMA をイーサネットに移植します。

2つの主流RDMAソリューション(IBとROCEVXNUMX)の比較

  • 従来のデータセンターと比較して、新しいインテリジェント コンピューティング センターの通信ネットワーク要件は、低遅延、広い帯域幅、安定性、大規模など、より高くなっています。
  • RDMA ベースの InfiniBand と ROCEV2 はどちらも、インテリジェント コンピューティング センターの通信ネットワークのニーズを満たすことができます。
  • InfiniBand は現在、パフォーマンスの面で ROCEV2 よりも優れていますが、ROCEV2 は現在、経済性と汎用性の面で InfiniBand よりも優れています。

初期の SDR (シングル データ レート) 仕様を例にとると、1X リンクの元の信号帯域幅は 2.5Gbps、4X リンクは 10Gbps、12X リンクは 30Gbps です。1X リンクの実際のデータ帯域幅は 2.0Gbps です (8b/10b エンコーディングのため)。リンクは双方向であるため、バスに対する総帯域幅は 4Gbps です。時間の経過とともに、InfiniBand のネットワーク帯域幅はアップグレードされ続けます。

HDR と NDR の DR は何を意味しますか? 各 DR は、IB テクノロジの各世代の略称です。DR はデータ レートの一般的な用語で、4 チャネルが主流です。

次の図は、SDR、DDR、QDR、FDR、EDR から HDR および NDR までの InfiniBand のネットワーク帯域幅を示しています。速度は 4 倍のリンク速度に基づいています。現在、EDR、HDR、NDR が主流で、PICE 3.0、4.0、5.0 サーバー プラットフォームに対応しています。

NVIDIA InfiniBand 主流製品 - 最新の NDR ネットワーク カードの状況

ConnectX-7 IB カード (HCA) には、シングル ポートとデュアル ポート、OSFP および QSFP112 インターフェイスのサポート、200Gbps および 400Gbps レートのサポートなど、さまざまなフォーム ファクターがあります。CX-7 ネットワーク カードは、CEM 仕様に準拠した x16 PCle5.0 または PCle 4.0 をサポートしています。NVIDIA Socket Direct® テクノロジを使用して 16 レーンの PCIe 32 を有効にするオプションの補助カードのサポートにより、最大 4.0 レーンを接続できます。

その他のフォーム ファクターには、OSFP コネクタを備えた Open Compute Project (OCP) 3.0、QSFP3.0 コネクタを備えた OCP 112、QSFP16 コネクタを備えた CEM PCle x112 などがあります。

Mellanox の最新 NDR スイッチ

Mellanox の IB スイッチは、固定構成スイッチとモジュラー スイッチの 2 種類に分かれています。最新の NDR シリーズ スイッチでは、モジュラー構成スイッチの販売は終了しているようです (公式サイトでは販売中と表示​​されていますが、現在は販売されていません)。

NDR の固定構成スイッチ MQM9700 シリーズには、32 個の物理 OSFP コネクタが装備されており、64 個の 400Gb/s ポート (最大 128 個の 200Gb/s ポートに分割可能) をサポートします。このスイッチ シリーズは、合計 51.2Tb/s の双方向スループット (バックプレーン帯域幅) と、驚異的な 66.5 億パケット/秒 (パケット転送速度) を提供します。

サブモデルのインターフェース数や速度は同じで、管理機能のサポートの有無、電源供給方法、放熱方法が異なります。通常は管理機能付きのスイッチが 1 つあれば十分です。

Mellanoxの最新の相互接続ケーブルとモジュール

Mellanox の LinkX ケーブルとトランシーバーは、通常、ToR スイッチを NVIDIA GPU および CPU サーバー ネットワーク カードやストレージ デバイスに下位リンクしたり、ネットワーク インフラストラクチャ全体のスイッチ間相互接続アプリケーションで上位リンクしたりするために使用されます。

アクティブ光ケーブル (AOC)、ダイレクト アタッチ銅ケーブル (DAC)、および ACC と呼ばれる新しいアクティブ DAC には、ケーブルの端に信号強化集積回路 (IC) が含まれています。

Mellanox 最新の相互接続ケーブルとモジュール

スイッチ間およびスイッチとネットワーク カードは、異なるケーブルを介して相互接続でき、スイッチとネットワーク カードは 1 対 2 または 4 対 1 の相互接続を実現できます。

H100 の Mellanox NIC トポロジ

  • HGX モジュールは、H4 マシン内の 8 個または 100 個の PCIE SW チップを介してヘッドに論理的に接続されます。
  • 各 PCIE sw は 400 枚の GPU カードと 100 枚のネットワーク カードに対応し、XNUMX 枚の XNUMXG IB カードは XNUMX 枚の HXNUMX カードと XNUMX 対 XNUMX で対応するように設計されています。
  • 400 枚の XNUMXG IB カードが完全に装備されている場合、他のネットワーク カードを追加するには、CPU から他の PCIE SW 接続が必要になります。

H100 の Mellanox NIC トポロジ

コメント

上へスクロール