データセンターネットワークアーキテクチャ
クロスバーアーキテクチャ
- 初期の電話交換網 (クロスバー スイッチ) から派生したアーキテクチャの一種
- 複数の入力ポート、複数の出力ポート、およびスイッチ マトリックスで構成されます。
- 非常に柔軟で効率的で、異なるデバイス間の任意の接続を実現できます。
クロの建築
- シャルル・クロという人物によって提唱され、1952年に誕生しました。
- Clos アーキテクチャは、主に多段回線交換ネットワークの構造を記述します。
- Clos アーキテクチャは、クロスバー構造を改良したもので、ノンブロッキング ネットワークを提供できます。 Clos の利点は、コストを節約し、効率を向上できることです。
ファットツリーアーキテクチャ
ファットツリーは CLOS ネットワーク アーキテクチャの一種です。
従来のツリー構造と比較すると、ファットツリーは根元近くの枝が太くなり、より本物の木に似ています。リーフからルートまで、ネットワーク帯域幅は収束しません。
基本的な考え方: 多数の低パフォーマンスのスイッチを使用して、大規模なノンブロッキング ネットワークを構築します。どのような通信パターンであっても、ネットワーク カードの帯域幅を達成できるパスが常に存在します。
ファットツリー アーキテクチャがデータ センターに導入された後、データ センターは従来の 3 層構造になりました。
アクセス層: すべてのコンピューティング ノードを接続するために使用されます。通常はラック スイッチ (TOR、トップ オブ ラック) の形式です。
アグリゲーションレイヤー: アクセス層の相互接続、およびアグリゲーション エリアの第 2 層と第 3 層の境界として使用されます。ファイアウォール、負荷分散などのさまざまなサービスもここに展開されます。
コアレイヤー: アグリゲーション層の相互接続、およびデータセンター全体と外部ネットワーク間の第 3 層通信の実装に使用されます。
ファットツリー アーキテクチャの欠点は次のとおりです。
資源の無駄遣い: 従来の 3 層構造では、下位層のスイッチは 2 つのリンクを介して 2 つの上位層のスイッチに接続されます。 STP プロトコル (スパニング ツリー プロトコル) が使用されるため、実際にトラフィックを伝送するリンクは 1 つだけです。もう一方のアップリンクはブロックされています (バックアップのみに使用されます)。これにより、帯域幅の無駄が発生します。
大規模なフォールト ドメイン:STP プロトコルは、独自のアルゴリズムにより、ネットワーク トポロジが変化したときに再収束する必要があるため、障害が発生しやすくなり、VLAN 全体のネットワークに影響を与える可能性があります。
東西の交通には適さない: サーバーとサーバー間の通信には、アクセス スイッチ、アグリゲーション スイッチ、コア スイッチを経由する必要があります。
スパインリーフネットワーク
Fat-Tree 構造と同様に、CLOS ネットワーク モデルに属します。
従来の 3 層ネットワーク アーキテクチャと比較して、Spine-Leaf ネットワークはフラット化され、2 層アーキテクチャになりました。
リーフ スイッチは、物理サーバーに直接接続される TOR (Top Of Rack) として、従来の 2 層アーキテクチャのアクセス スイッチに相当します。リーフ スイッチの上には第 XNUMX 層のネットワークがあり、それぞれが独立した LXNUMX ブロードキャスト ドメインです。 XNUMX つのリーフ スイッチの下にあるサーバーが通信する必要がある場合、それらはスパイン スイッチによって転送される必要があります。
スパイン スイッチ。コア スイッチに相当します。リーフ スイッチとスパイン スイッチは、ECMP (Equal Cost Multi Path) を通じて複数のパスを動的に選択します。
スパイン スイッチのダウンリンク ポートの数によって、リーフ スイッチの数が決まります。リーフ スイッチのアップリンク ポートの数によって、スパイン スイッチの数が決まります。彼らは共同してスパインとリーフのネットワークの規模を決定します。
スパインリーフネットワークの利点
高い帯域幅使用率
各リーフ スイッチのアップリンクは負荷分散方式で動作し、帯域幅を最大限に活用します。
予測可能なネットワーク遅延
上記のモデルでは、リーフ スイッチ間の通信パスの数を決定でき、各パスに必要なスパイン スイッチは 1 つだけです。 East-West ネットワークの遅延は予測可能です。
優れたスケーラビリティ
帯域幅が不十分な場合は、スパイン スイッチの数を増やして帯域幅を水平方向に拡張できます。サーバー数が増加した場合、スパインスイッチの数も増加してデータセンターの規模を拡大できます。計画と拡張は非常に便利です。
スイッチの要件の軽減
North-South トラフィックは、リーフ ノードまたはスパイン ノードから発信できます。東西トラフィックは複数のパスに分散されます。高価な高性能、高帯域幅スイッチは必要ありません。
高いセキュリティと可用性
従来のネットワークでは STP プロトコルが使用されており、デバイスに障害が発生すると再収束し、ネットワークのパフォーマンスに影響を与えたり、障害を引き起こしたりすることがあります。スパインリーフ アーキテクチャでは、デバイスに障害が発生した場合、再収束する必要はなく、トラフィックは他の通常のパスを通過し続けます。ネットワーク接続は影響を受けず、帯域幅は 1 つのパスの帯域幅だけ減少します。パフォーマンスへの影響は無視できます。
RDMA (リモート ダイレクト メモリ アクセス) プロトコル
従来の TCP/IP では、ネットワーク カードからのデータが最初にカーネル メモリにコピーされ、次にアプリケーション ストレージ領域にコピーされるか、データがアプリケーション領域からカーネル メモリにコピーされてから、インターネットに送信されます。ネットワークカード。この I/O 動作モードでは、カーネル メモリの変換が必要です。データ フローの伝送パスの長さが長くなり、CPU 負荷が増加し、伝送遅延も増加します。
RDMA のカーネル バイパス メカニズムにより、アプリケーションとネットワーク カードの間で直接データの読み取りおよび書き込みが可能になり、サーバー内のデータ送信遅延が 1us 近くに短縮されます。
同時に、RDMA のメモリ ゼロ コピー メカニズムにより、受信側はカーネル メモリの関与をバイパスして送信側のメモリからデータを直接読み取ることができるため、CPU 負荷が大幅に軽減され、CPU 効率が向上します。
InfiniBandの背景
InfiniBand (略称 IB) は強力な通信技術プロトコルです。英語に訳すと「無限帯域」となります。これは、PCI (Peripheral Component Interconnect) バスを置き換えるために 1990 年代に誕生しました。 PCI バスは Intel によって PC アーキテクチャに導入されましたが、アップグレード速度が遅いため、I/O パフォーマンスが大幅に制限され、システム全体のボトルネックになりました。
InfiniBandの開発経緯
1990 年代には、Intel、Microsoft、SUN が「Next Generation I/O (NGIO)」技術標準の開発を主導し、IBM、Compaq、HP が「Future I/O (FIO)」の開発を主導しました。
1999 年に、FIO Developers Forum と NGIO Forum が合併して設立されました。 貿易協会 (IBTA)。
2000 年に、InfiniBand アーキテクチャ仕様バージョン 1.0 が正式にリリースされました。
1999 年 XNUMX 月、インテルとガリレオ テクノロジーを退職した数人の従業員がイスラエルにチップ会社を設立し、同社を Mellanox と名付けました。
Mellanox 設立後、NGIO に加わりました。その後、Mellanox は InfiniBand 陣営に加わりました。 2001 年に、彼らは最初の InfiniBand 製品を発売しました。から始まる
2003 年、InfiniBand はコンピュータ クラスタ相互接続という新しい応用分野に注目しました。
2004 年には、もう XNUMX つの重要な InfiniBand 非営利組織、OFA (Open Fabrics Alliance) が誕生しました。
2005 年、InfiniBand はストレージ デバイスの接続という別の新しいシナリオを発見しました。
それ以来、InfiniBand は急速な発展段階に入りました。
InfiniBand ネットワーク アーキテクチャ
InfiniBand はチャネルベースの構造であり、次の 4 つの主要コンポーネントで構成されます。
- HCA (ホスト チャネル アダプター)。ホストを InfiniBand ネットワークに接続します。
- TCA (ターゲット チャネル アダプター)。ターゲット デバイス (ストレージなど) を InfiniBand ネットワークに接続します。
- InfiniBand リンクは、ケーブル、ファイバー、またはオンボード リンクであり、チャネル アダプターをスイッチまたはルーターに接続します。
- InfiniBand スイッチおよびルーター。InfiniBand ネットワークにネットワーク接続とルーティングを提供します。
- チャネル アダプタは、InfiniBand チャネルを確立するために使用されます。すべての伝送はチャネル アダプタで開始または終了し、セキュリティを確保したり、特定の QoS (サービス品質) レベルで動作します。
Mellanox は、2020 年に Nvidia に買収されました。それ以来、AI 大規模モデルのトレーニングに広く使用されています。
RoCE
RoCEの誕生
2010 年 2014 月、IBTA は、InfiniBand の RDMA テクノロジーをイーサネットに「移植」した RoCE (RDMA over Converged Ethernet) をリリースしました。 2 年に、彼らはより成熟した RoCEv2 を提案しました。 RoCEvXNUMX により、イーサネットは InfiniBand との技術的パフォーマンスの差を大幅に縮め、その固有のコストと互換性の利点と組み合わせて、反撃を開始しました。
RoCE V2
RoCE v1: イーサネット リンク層に基づく RDMA プロトコル (スイッチは、物理層での信頼性の高い伝送を確保するために、PFC などのフロー制御テクノロジをサポートする必要があります)。これにより、同じ VLAN 内の 2 つのホスト間の通信が可能になります。 RoCE V1: 単一の VLAN にバインドされる RoCE v2 の制限を克服します。 IP および UDP ヘッダーを含むパケットのカプセル化を変更することで、RoCE 2 を L3 および LXNUMX ネットワーク全体で使用できるようになりました。
関連製品:
- Mellanox MMA1B00-E100 互換 100G InfiniBand EDR QSFP28 SR4 850nm 100m MTP/MPO MMF DDM トランシーバー モジュール $40.00
- Mellanox MMA1T00-HS 互換 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 光トランシーバー モジュール $200.00
- Mellanox MMS1W50-HM 互換 200G InfiniBand HDR QSFP56 FR4 PAM4 CWDM4 2km LC SMF FEC 光トランシーバー モジュール $650.00
- NVIDIA MMS4X00-NS400 互換 400G OSFP DR4 フラットトップ PAM4 1310nm MTP/MPO-12 500m SMF FEC 光トランシーバー モジュール $800.00
- NVIDIA MFP7E20-N050 互換 50m (164 フィート) 8 ファイバー 低挿入損失 メス - メス MPO12 - 2xMPO12 極性 B APC - APC LSZH マルチモード OM4 50/125 $145.00
- NVIDIA MFP7E20-N015 互換 15m (49 フィート) 8 ファイバー 低挿入損失 メス - メス MPO12 - 2xMPO12 極性 B APC - APC LSZH マルチモード OM3 50/125 $67.00
- NVIDIA MFS1S90-H015E 互換 15m (49 フィート) 2x200G QSFP56 ~ 2x200G QSFP56 PAM4 ブレークアウト アクティブ光ケーブル $830.00
- NVIDIA MMA4Z00-NS-FLT 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $850.00
- NVIDIA MMS4X00-NM-FLT 互換 800G ツインポート OSFP 2x400G フラットトップ PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $1200.00
- NVIDIA MFS1S50-H015V 互換 15m (49 フィート) 200G InfiniBand HDR QSFP56 から 2x100G QSFP56 PAM4 ブレークアウト アクティブ光ケーブル $630.00
- NVIDIA MMA4Z00-NS 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $750.00
- NVIDIA MMS4X00-NM 互換 800Gb/s ツインポート OSFP 2x400G PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $1100.00
- NVIDIA Mellanox MCX653105A-HDAT-SP ConnectX-6 InfiniBand/VPI アダプター カード、HDR/200GbE、シングルポート QSFP56、PCIe3.0/4.0 x16、トール ブラケット $1400.00
- Mellanox MCP7H50-H003R26互換性のある3m(10ft)Infiniband HDR200GQSFP56から2x100GQSFP56PAM4パッシブブレイクアウト直接接続銅ケーブル $75.00
- Mellanox MFS1S50-H003E互換性のある3m(10ft)200G HDRQSFP56から2x100GQSFP56PAM4ブレイクアウトアクティブ光ケーブル $605.00
- NVIDIA Mellanox MCX75510AAS-NEAT ConnectX-7 InfiniBand/VPI アダプター カード、NDR/400G、シングル ポート OSFP、PCIe 5.0x 16、トール ブラケット $1650.00