高性能コンピューティングネットワークにおける光相互接続

23月2024日、CIOE(中国国際光電子博覧会)とC114通信ネットワークが共同で主催したXNUMX年中国高品質発展フォーラムの第XNUMX回セッションが、「AI時代:データセンター光インターコネクション技術の新潮流」をテーマに成功裏に開催されました。JD光インターコネクションアーキテクトの陳成氏は、会議で「高性能コンピューティングネットワークにおける光インターコネクション」について基調講演を行いました。

JD は、ハイパフォーマンス コンピューティング ネットワークの分野で早くから事業を開始し、複数世代のインテリジェント コンピューティング トポロジーに多額の投資を続けています。アプリケーション シナリオには、推奨アルゴリズム、インテリジェント カスタマー サービス、AI による販売とリース、デジタル ヒューマンのライブ ストリーミングなどが含まれます。

インテリジェント コンピューティング ネットワーク トポロジは、一般的に 2 つの独立したネットワークに分かれています。1 つはアクセス/ストレージ ネットワークで、主に CPU 間の相互接続を実現します。もう 1 つはコンピューティング ネットワークで、主に GPU ノード データの並列調整を実行します。全体として、光相互接続に対するインテリジェント コンピューティング ネットワークの要件は、主に 3 つの側面、つまり、広い帯域幅、低コスト、低遅延に集中しています。

光トランシーバと広帯域の関係

データリンク帯域幅に関して言えば、まずGPU間の並列マルチチャネル通信を実現することが求められます。データ転送時にはリンク帯域幅に注意する必要があります。コンピューティングノードの内部相互接続では、一般的にC2Cフルメッシュ方式が使用され、接続速度は数百GB/秒に達することがあります。

異なるGPUエクスポート間の通信を実現するには、PCIeを介して光トランシーバをネットワークカードに接続し、シリアルからパラレルへの変換後に光トランシーバとコンピューティングネットワークを介してポート間の接続を実現する必要があります。そのため、現在多くのメーカーが高速相互接続のボトルネックを打破するために光入出力(OIO)の形式を提唱しており、これも現在の開発トレンドとなっています。

ネットワーク設備/光トランシーバ帯域幅の進化の観点から見ると、現在のインテリジェントコンピューティングネットワークでは主に50G Serdesスイッチと光トランシーバが導入されており、主な光トランシーバタイプは200G / 400Gです。単一ノードの容量が51.2Tに達すると、ネットワークのスケーラビリティの要件に基づいて、異なるトポロジタイプが選択されます。一部の北米メーカーは64x800G OSFPを選択し、国内メーカーは128x400G QSFP 112パッケージを使用し、このXNUMXつはユニバーサルな産業チェーンです。

ネットワーク機器/光トランシーバ帯域幅の進化

ネットワーク機器/光トランシーバ帯域幅の進化

将来、シングルチップスイッチング容量が102.4Tに達した場合でも、プラガブル光トランシーバは高密度、大容量の光相互接続アプリケーションをサポートでき、64×1.6T OSFPとQSFP224-DDを選択できます。CPOも人気のあるソリューションのXNUMXつです。信頼性の問題を解決し続け、構築と展開中の保守性の問題も解決します。

光相互接続のコストを削減するにはどうすればよいでしょうか?

光相互接続のコスト削減という問題において、シリコンベースのフォトニクス技術は潜在的なコスト削減ソリューションの 112 つです。シリコンフォトニクスはまったく新しい技術ではありませんが、データセンターのアプリケーションの観点からは比較的新しい製品です。現在、XNUMX レーンあたり XNUMXG モジュールの上流サプライ チェーンは少数の光デバイス メーカーに集中しているため、シリコンフォトニクス モジュールを関与させることで、供給不足の問題を解決できます。

特に、シリコン光トランシーバーは2km以内のすべてのデータセンター応用シナリオのニーズをカバーできるため、JDは対応する認証などの作業も行っており、近い将来、現在のネットワークに実際に導入できると考えられています。

リニアダイレクトドライブ光トランシーバーLPO/LROも現在人気のアプリケーショントレンドです。112レーンあたりXNUMXGの時代では、ASICの強力な駆動能力のおかげで、光トランシーバーを簡素化できます。つまり、DSPまたはCDR部分を削除できるため、光トランシーバーの複雑さが軽減され、コスト削減の目的を達成できます。

ただし、互換性や相互運用性の問題など、いくつかの課題にも直面しています。ASIC チップのサポート、異なるメーカー間の相互接続、新旧モジュール間の相互接続などを考慮する必要があります。

進化の持続可能性の問題も考慮する必要があります。たとえば、112G はすでに LPO をサポートできますが、224G に発展する場合は、LPO サポートの実現可能性を考慮する必要があります。

インテリジェントコンピューティングネットワークの低遅延問題

低レイテンシの観点では、全体的に協調されたコンピューティングの保証を実現したい場合、異なるコンピューティング ノード間の GPU レイテンシの問題により、必然的に動作効率が大幅に低下します。では、通常、レイテンシを引き起こす要因は何でしょうか?

まず、GPU ネットワークは当初 InfiniBand (IB) プロトコルに基づいていました。このプロトコルは、データ転送で CPU をバイパスし、異なるコンピューティング ノード間の GPU キャッシュ間のデータ通信を可能にし、プロトコル ベースの通信遅延を大幅に削減しました。

B2Bコミュニケーションの遅延

B2Bコミュニケーションの遅延

従来のイーサネットベースのプロトコルでは、CPU が通信プロセス全体に関与する必要があるため、遅延が長くなります。インテリジェント コンピューティング ネットワークでは、より妥協的なソリューションである RDMA ソリューションが使用されます。RDMA カーネルは、イーサネット プロトコルのカプセル化を使用してカプセル化できるため、イーサネット機能を共有して遅延を減らすことができます。

2 つ目はリンク遅延です。GPU 間の通信はリーフ スパイン アーキテクチャを経由し、光信号変換を実行してデータの相互接続を実現する必要があり、そのため、プロセス中にさまざまなリンクでさまざまな遅延が必然的に発生します。

たとえば、意思決定モデルのレイテンシにおいて、最適化できる項目は、光トランシーバー内の信号回復ユニットによって発生する遅延です。生成モデルの遅延では、遅延は主にデータ伝送時間によって発生し、物理リンクによって発生する遅延はごくわずかな割合を占めるだけです。したがって、この時点では、システム遅延は帯域幅の利用率に敏感であり、異なるモデルに応じて異なる遅延方向を最適化する必要があります。

最後に、陳成氏は、従来のデータ通信ネットワークと比較して、インテリジェントコンピューティングネットワークの帯域幅はより速く成長し、低コストの相互接続はシリコンフォトニクス、LPO/LROなどの新しいテクノロジーのサポートに依存すると結論付けました。さらに、異なるモデルにはレイテンシに対する要件が異なり、最適化の方向性も異なります。

コメント

上へスクロール