データセンタースイッチ:現状と将来の動向

人工知能(AI)がデータ量とモデルの複雑さを飛躍的に増加させるにつれて、分散コンピューティングは相互接続されたノードを活用してトレーニングプロセスを加速します。データセンタースイッチは、特にテールレイテンシが競争の激しいワークロードの処理に不可欠な大規模データセンターにおいて、ノード間でのタイムリーなメッセージ配信を確保する上で極めて重要な役割を果たします。さらに、多数のノードを管理する拡張性と能力は、大規模なAIモデルのトレーニングと膨大なデータセットの処理に不可欠であり、データセンタースイッチは効率的なネットワーク接続とデータ伝送に不可欠です。IDCによると、世界のスイッチ市場は308年に2022億ドルに達し、前年比17%の成長を記録し、4.6年から2022年までの年間複合成長率(CAGR)は2027%と予測されています。中国では、スイッチ市場は59.1億ドルと評価され、9.5%成長し、今後7年間のCAGRは9%~XNUMX%と予測され、世界の成長を上回ります。

中国のインテリジェントコンピューティング規模の成長と予測

データセンタースイッチの主な分類

データセンタースイッチは、アプリケーションシナリオ、ネットワーク層、管理タイプ、OSIネットワークモデル、ポート速度、物理構造など、さまざまな基準に基づいて分類できます。分類には以下が含まれます。

  • アプリケーションシナリオ別: キャンパススイッチ、データセンタースイッチ
  • ネットワーク層別: アクセススイッチ、アグリゲーションスイッチ、コアスイッチ
  • 管理タイプ別: 非管理型スイッチ、Web管理型スイッチ、完全管理型スイッチ
  • OSIネットワークモデル別:レイヤー2スイッチ、レイヤー3スイッチ
  • ポート速度別: ファストイーサネットスイッチ、ギガビットイーサネットスイッチ、10ギガビットスイッチ、マルチレートスイッチ
  • 物理構造別:固定(ボックス)スイッチ、モジュラー(シャーシ)スイッチ

スイッチチップと主要パフォーマンス指標

イーサネットデータセンタースイッチは、チップ、PCB、光モジュール、コネクタ、受動部品、筐体、電源、ファンなどの重要なコンポーネントで構成されています。コアコンポーネントにはイーサネットスイッチチップとCPUが含まれ、PHYやCPLD/FPGAなどの追加要素も含まれています。ネットワーク最適化のために特別に設計されたイーサネットスイッチチップは、データ処理とパケット転送を担当し、堅牢なデータ処理を保証する複雑なロジックパスウェイを備えています。CPUはログインとプロトコルインタラクションを管理し、PHYは物理層データを処理します。

データセンタースイッチのパフォーマンスは、バックプレーン帯域幅、パケット転送速度、スイッチング容量、ポート速度、ポート密度といった主要な指標に左右されます。バックプレーン帯域幅はスイッチのデータスループット容量を示し、値が高いほど高負荷時のパフォーマンスが優れていることを意味します。ノンブロッキング転送の場合、バックプレーン帯域幅はスイッチング容量(全二重モードではポート数 × ポート速度 × 2 で計算)以上である必要があります。バックプレーンレス設計のハイエンドスイッチは、パケット転送速度を重視します。ポート速度が高いほど、高トラフィックシナリオにおいて優れた処理能力を発揮し、ポート密度が高いほど、より多くのデバイスを接続できるため、より大規模なネットワークに対応できます。

イーサネットスイッチチップのパケット処理アーキテクチャ

イーサネットスイッチチップは、データセンタースイッチ向けの専用ASICとして機能し、多くの場合、MACコントローラとPHYチップを統合しています。データパケットは物理ポートから入力され、チップのパーサーがフィールドを分析してフロー分類を行います。セキュリティチェックの後、パケットはレイヤ2スイッチングまたはレイヤ3ルーティングに渡され、フロー分類器が802.1PまたはDSCP規格に基づいてパケットを優先順位付けされたキューに振り分けます。その後、スケジューラが重み付けラウンドロビン(WRR)などのアルゴリズムを用いてキューの優先順位を管理し、パケットを送信します。

固定スイッチの図解

データセンタースイッチは、物理的にはシャーシ型と固定型に分類されます。シャーシ型スイッチは、インターフェース、制御、スイッチングモジュール用のスロットを備えたモジュラー設計を採用しており、高い柔軟性と拡張性を備えています。固定型スイッチは、ポート構成が固定された統合型設計ですが、モジュラー型インターフェースをサポートするものもあります。主な違いは、内部アーキテクチャとアプリケーションシナリオ(OSI層の使用)にあります。

モジュラースイッチと固定スイッチは、それぞれの分野で優れた性能を発揮し、多様なシナリオ要件を満たします。

データセンタースイッチの進化と技術の進歩

OEO から OOO へ: AI ワークロード向け全光スイッチ

ASICチップをベースとした現在のデータセンタースイッチは、光・電気・光(OEO)パケット回線スイッチとして動作し、コアパケット転送はASICチップに依存しています。これらのスイッチは、信号伝送に光から電気への変換を必要とします。しかし、AI主導の計算需要を満たすために、オールオプティカル(OOO)スイッチが登場しており、変換オーバーヘッドを削減し、効率性を向上させています。

OOO 全光スイッチの概略図

NVIDIA幹部がLightmatterに入社し、全光スイッチングの進化を目指す

2024年4.4月、NVIDIAのバイスプレジデントであるシモーナ・ヤンコウスキー氏がLightmatterのCFOに就任し、同社が光インターコネクトに注力していることを示しました。LightmatterのPassageテクノロジーは、チップインターコネクトにフォトニクスを活用し、光ファイバーではなく導波路を使用することで、多様なコンピューティングコアに高帯域幅の並列データ伝送を提供し、AIネットワークのパフォーマンスを大幅に向上させます。これは、同社の評価額がXNUMX億ドルです。

光物質通路

Google の OCS スイッチの大規模導入

Googleのデータセンターネットワークは、ソフトウェア定義ネットワーク(SDN)、Closトポロジ、そして汎用スイッチチップを重視しています。Closトポロジは、より小型の基数チップで構築されたノンブロッキングのマルチステージアーキテクチャであり、AIワークロードに不可欠なスケーラブルなネットワークをサポートします。

Google の Apollo ネットワーク アーキテクチャと OCS スイッチ

Googleは、Jupiterアーキテクチャに光回線スイッチ(OCS)を大規模に採用した先駆者であり、MEMSベースのOCSを統合することで光から電気への変換を削減しました。OFC 2023では、スパイン層のイーサネットパケットスイッチ(EPS)をOCSに置き換えて効率性を向上させるApolloプロジェクトを発表しました。

データセンタースイッチの主要技術と標準

  • RDMA: 低遅延、高スループットの通信を実現

リモート・ダイレクト・メモリ・アクセス(RDMA)は、オペレーティングシステムの介入を回避し、高スループットで低レイテンシのネットワーク通信を実現します。CPUを集中的に使用する複数のデータコピーを必要とする従来のTCP/IPとは異なり、RDMAはコンピュータメモリ間で直接データを転送します。データセンタースイッチでは、RDMAはInfiniBandとRoCE(RDMA over Converged Ethernet)を介して実装され、 RoCEv2 は AI データ センター (AIDC) の主要なソリューションとなっています。

  • InfiniBand:高性能コンピューティング(HPC)とデータセンター向けに設計されたInfiniBandは、高帯域幅、低レイテンシ、サービス品質(QoS)、そしてスケーラビリティを提供します。チャネル化アーキテクチャ、RDMAサポート、そしてスイッチドネットワーク設計は、データ集約型アプリケーションに最適です。しかし、高コストのため、導入は特殊なHPC環境に限られています。

InfiniBandとRoCEの比較​​

カテゴリ​,war​,warインフィニバンド​,war​,warRoCE​,war
デザイン哲学​​,warRDMAを念頭に設計され、物理リンクとネットワーク層を再定義RDMA over Ethernet を実装 (RoCEv1: リンク層、RoCEv2: トランスポート層)
主要技術​,war– InfiniBandネットワークプロトコルとアーキテクチャ
– 動詞プログラミングインターフェース
– UDP/IPベースの実装
– CPU使用率を削減するハードウェアオフロード(RoCEv2)
– スケーラビリティのためのIPルーティング
利点​​,war– より高い帯域幅とより低いレイテンシ
– クレジットベースのフロー制御によりデータの安定性を確保
–費用対効果
– 標準イーサネットと互換性あり
– 大規模展開をサポート
デメリット​​,war– スケーラビリティが限られている
– 専用のNICとスイッチが必要
– 実施上の課題は残る
– RoCE対応NICが必要
費用​​,war高い(専用の IB NIC/スイッチ、ケーブル配線コストがイーサネットを超える)低い(標準イーサネット スイッチを使用、予算に優しい)
使用例​,warHPC、大規模並列処理、AIトレーニングデータセンター内部通信、クラウドサービスプロバイダー
主要サプライヤー​,warNVIDIA(主要サプライヤー)マルチベンダーのサポート (例: 中国の Huawei、H3C、Inspur、Ruijie)
  • RoCE:イーサネットのUDPレイヤー上に構築されたRoCEv2は、スケーラビリティ向上のためにIPプロトコルを導入し、ハードウェアオフロードによってCPU使用率を削減します。InfiniBandよりもパフォーマンスは若干劣りますが、RoCEv2はコスト効率に優れており、データセンター通信やクラウドサービスに適しています。

RDMAはカード間通信の遅延を削減します

分散AIトレーニングにおいて、カード間通信のレイテンシを短縮することは、加速率の向上に不可欠です。総計算時間には、シングルカードでの計算とカード間通信が含まれますが、RDMA(InfiniBandまたはRoCEv2経由)はカーネルプロトコルスタックをバイパスすることでレイテンシを最小限に抑えます。ラボテストでは、シングルホップシナリオにおいて、RDMAによってエンドツーエンドのレイテンシが50µs(TCP/IP)から5µs(RoCEv2)または2µs(InfiniBand)に短縮されることが示されています。

  • InfiniBand と RoCEv2InfiniBandは、RoCEv10,000よりもパフォーマンスの低下を最小限に抑え、レイテンシも低い大規模GPUクラスター(最大2枚)をサポートしますが、コストは高く、NVIDIAが市場の70%以上を占めています。RoCEv2は、より幅広い互換性と低コストを提供し、RDMAと従来のイーサネットネットワークの両方をサポートしており、H3CやHuaweiなどのベンダーが市場をリードしています。
  • イーサネットの成長:Dell'Oro Groupによると、AIバックエンドネットワーク向けスイッチの支出は100年から2025年にかけて2029億ドルを超えると予想されています。xAIのColossusのような導入事例からもわかるように、イーサネットは大規模AIクラスターで注目を集めています。2027年までに、イーサネットは市場シェアでInfiniBandを上回ると予想されています。
  • NVIDIAのイーサネット推進:2023年2024月、AMD、Arista、Broadcom、Cisco、Meta、Microsoftが参加するUltra Ethernet Consortium(UEC)が、イーサネットベースのAIネットワークソリューションの開発を目指して設立されました。NVIDIAは1.6年XNUMX月にこのコンソーシアムに参加し、Spectrum-Xプラットフォームによって従来のイーサネットと比較してAIネットワークパフォーマンスをXNUMX倍向上させました。NVIDIAは、AIイーサネットパフォーマンスをさらに向上させるため、Spectrum-Xの年次アップデートを計画しています。

コメント

上へスクロール