周知のように、インターネット データの爆発的な増加は、データ センターの処理能力に大きな課題をもたらしました。
コンピューティング、ストレージ、ネットワークは、データセンターの発展を促進する XNUMX つの原動力です。
CPU、GPU、FPGA の発達により、演算能力は大幅に向上しました。 ストレージ ソリッド ステート ドライブ (SSD) の導入により、データ アクセスの待ち時間が大幅に短縮されました。
しかし、ネットワークの開発は明らかに遅れており、伝送遅延が大きく、徐々にデータセンターのパフォーマンスのボトルネックになっています。
データセンターでは、トラフィックの 70% が East-West トラフィック (サーバー間のトラフィック) です。 このトラフィックは、通常、データ センターでの高性能分散並列コンピューティング中にデータ フローを処理し、TCP/IP ネットワークを介して送信されます。
サーバー間の TCP/IP 転送速度が向上すると、データ センターのパフォーマンスも向上します。
サーバー間の TCP/IP 転送
サーバー A がデータ センター内のサーバー B にデータを送信するプロセスは次のとおりです。
- CPU 制御データは、A の APP バッファからオペレーティング システムのバッファにコピーされます。
- CPU 制御データ TCP および IP ヘッダーをオペレーティング システム (OS) バッファーに追加します。
- TCP および IP パケット ヘッダーを追加してデータを NIC に送信し、イーサネット パケット ヘッダーを追加します。
- パケットはネットワーク アダプターによって送信され、イーサネット ネットワークを介してサーバー B のネットワーク アダプターに送信されます。
- サーバー B のネットワーク アダプターは、パケットのイーサネット ヘッダーをアンロードし、オペレーティング システムのバッファーに転送します。
- CPU は、オペレーティング システムのバッファにある TCP および IP パケット ヘッダーをアンロードします。
- CPU は、アンインストールされたデータの APP バッファへの転送を制御します。
データ送信プロセスからわかるように、データはサーバーのバッファーに数回コピーされ、オペレーティング システムで TCP および IP ヘッダーを追加またはアンインストールする必要があります。 これらの操作は、データ転送の遅延を増加させるだけでなく、大量の CPU リソースを消費するため、高性能コンピューティングの要件を満たすことができません。
では、高スループット、超低遅延、低 CPU オーバーヘッドを備えた高性能データセンター ネットワークを構築するにはどうすればよいでしょうか?
RDMA テクノロジーがそれを可能にします。
RDMAとは
リモート ダイレクト メモリ アクセス (RDMA) は、オペレーティング システムや CPU による時間のかかる処理を行うことなく、サーバーが他のサーバーからメモリ データを高速で読み書きできるようにする新しいメモリ アクセス テクノロジです。
RDMA は新しいテクノロジではなく、ハイ パフォーマンス コンピューティング (HPC) で広く使用されています。 データセンターでの高帯域幅と低遅延に対する開発需要に伴い、RDMA は、データセンターに高いパフォーマンスを必要とするいくつかのシナリオで徐々に適用されています。
たとえば、2021 年には、大規模なオンライン モールのショッピング フェスティバルの取引額が 500 億元を超え、10 年に比べて 2020% 近く増加しました。このような巨大な取引額の背後には、大量のデータ処理があります。 このオンライン モールは、RDMA テクノロジを使用して高性能ネットワークをサポートし、スムーズなショッピング フェスティバルを実現します。
低レイテンシーのための RDMA のトリックのいくつかを見てみましょう。
RDMA はサーバー アプリケーション データをメモリからインテリジェント ネットワーク カード (INIC) に直接転送し (固定化された RDMA プロトコル)、INIC ハードウェアは RDMA 転送パケットのカプセル化を完了し、オペレーティング システムと CPU を解放します。
これにより、RDMA には次の XNUMX つの大きな利点があります。
- ゼロコピー: オペレーティング システム カーネルにデータをコピーしてパケット ヘッダーを処理する必要がなくなるプロセスで、伝送遅延が大幅に短縮されます。
- カーネルバイパスとプロトコルオフロード: オペレーティング システム カーネルは関与せず、データ パスに複雑なヘッダー ロジックはありません。 これにより、待ち時間が短縮され、CPU リソースが大幅に節約されます。
XNUMX つの主要な RDMA ネットワーク
現在、RDMA ネットワークには XNUMX つのタイプがあります。 、RoCE (RDMA over Converged Ethernet)、および iWARP (RDMA over TCP)。
RDMA は元々、ハードウェア レベルで信頼性の高いトランスポートを確保するために Infiniband ネットワーク アーキテクチャ専用でしたが、RoCE と iWARP はイーサネット ベースの RDMA テクノロジです。
- InfiniBand は、RDMA 専用に設計されたネットワークです。
- カットスルー転送モードを採用し、転送遅延を低減します。
- クレジットベースのフロー制御メカニズムにより、パケット損失がありません。
- ネットワーク構築コストが最も高いInfiniBandの専用ネットワークアダプター、スイッチ、ルーターが必要です。
RoCE
- トランスポート層は InfiniBand プロトコルです。
- RoCE には 1 つのバージョンがあります。RoCEv2 はイーサネット リンク レイヤーに実装され、レイヤー L2 でのみ送信できます。 RoCEv3 は UDP ベースの RDMA をホストし、レイヤー XNUMX ネットワークに展開できます。
- RDMA 専用のインテリジェント ネットワーク アダプターをサポートし、専用のスイッチとルーターを必要とせず (ECN/PFC テクノロジをサポートし、パケット損失率を低減)、ネットワーク構築コストを最小限に抑えます。
アイワープ
- トランスポート層は iWARP プロトコルです。
- iWARP は、イーサネット TCP/IP プロトコルの TCP 層に実装され、L2/L3 層での伝送をサポートします。 大規模なネットワークでの TCP 接続は CPU を大量に消費するため、ほとんど使用されません。
- iWARP は、RDMA をサポートするためのネットワーク アダプターのみを必要とし、プライベート スイッチとルーター、および InfiniBand と RoCE 間のコストは必要ありません。
高度なテクノロジーを備えていますが、価格が高いため、Infiniband は HPC ハイパフォーマンス コンピューティングに限定されています。 RoCE と iWARPC の出現により、RDMA のコストが削減され、RDMA テクノロジが普及しました。
これら XNUMX 種類の RDMA ネットワークを高性能ストレージおよびコンピューティング データ センターで使用すると、データ転送の待ち時間が大幅に短縮され、アプリケーションの CPU リソースの可用性が向上します。
InfiniBand ネットワークは、Ethernet デバイスよりも 100 桁低い XNUMX ナノ秒という低い伝送遅延で、データ センターに極端なパフォーマンスを提供します。
RoCE および iWARP ネットワークは、構築コストをあまりかけずに、RDMA の高性能と低 CPU 使用率を最大限に活用して、データ センターとホスト RDMA over Ethernet に高コスト パフォーマンスをもたらします。
UDP ベースの RoCE は、TCP ベースの iWARP よりも優れたパフォーマンスを発揮し、ロスレス イーサネット フロー制御技術と組み合わせることで、パケット損失感度の問題を解決します。 RoCE ネットワークは、さまざまな業界の高性能データ センターで広く使用されています。
まとめ
5G、人工知能、産業用インターネット、およびその他の新しい分野の発展に伴い、RDMA テクノロジーのアプリケーションはますます普及し、RDMA はデータセンターのパフォーマンスに大きく貢献します。
関連製品:
- NVIDIA MMA4Z00-NS400 互換 400G OSFP SR4 フラットトップ PAM4 850nm OM30 で 3m/OM50 で 4m MTP/MPO-12 マルチモード FEC 光トランシーバ モジュール $650.00
- NVIDIA MMA4Z00-NS-FLT 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $850.00
- NVIDIA MMA4Z00-NS 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $750.00
- NVIDIA MMS4X00-NM 互換 800Gb/s ツインポート OSFP 2x400G PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $1100.00
- NVIDIA MMS4X00-NM-FLT 互換 800G ツインポート OSFP 2x400G フラットトップ PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $1200.00
- NVIDIA MMS4X00-NS400 互換 400G OSFP DR4 フラットトップ PAM4 1310nm MTP/MPO-12 500m SMF FEC 光トランシーバー モジュール $800.00
- Mellanox MMA1T00-HS 互換 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 光トランシーバー モジュール $200.00
- NVIDIA MCA7J60-N004 互換 4 メートル (13 フィート) 800G ツインポート OSFP から 2x400G OSFP InfiniBand NDR ブレークアウト アクティブ銅線ケーブル $800.00
- Cisco QDD-400G-SR8-S 互換 400G QSFP-DD SR8 PAM4 850nm 100m OM4 MPO-16 DDM MMF 光トランシーバ モジュール $180.00
- アリスタネットワークスQDD-400G-SR8互換400GQSFP-DD SR8 PAM4 850nm 100m MTP / MPO OM3FEC光トランシーバーモジュール $180.00
- Arista NetworksQDD-400G-DR4互換400GQSFP-DD DR4 PAM4 1310nm 500m MTP / MPO SMFFEC光トランシーバーモジュール $450.00
- ジュニパーネットワークスQDD-400G-FR4互換400GQSFP-DD FR4 PAM4 CWDM4 2km LC SMFFEC光トランシーバーモジュール $600.00