NVスイッチの詳細な分析とパフォーマンスプロファイリング

NVIDIA の GPU テクノロジーは、今日の高性能コンピューティングの分野で間違いなく輝いています。人工知能と機械学習の急速な発展に伴い、計算能力に対する需要は高まり続けており、GPU 間の相互接続がますます重要になっています。このような背景から、NVIDIA は NVLink プロトコルと、このテクノロジーに基づくマルチ GPU 相互接続ソリューションである NV スイッチを導入しました。

このセクションでは、NV スイッチの開発の歴史、動作原理、高性能サーバー クラスターの構築における重要な役割について詳しく説明し、このテクノロジの神秘的な側面を明らかにします。

NVスイッチが必要な理由

個々の GPU の計算能力が物理的な限界に近づくにつれて、複数の GPU 間での共同作業が避けられない傾向になります。

個々のGPU計算能力

ただし、他の GPU の HBM2 メモリにアクセスするには、PCIe インターフェイスを経由する必要があります。上の図に示すように、従来の PCIe インターフェイスではデータ転送速度と帯域幅に制限があり、GPU 通信のパフォーマンスのボトルネックになることがよくあります。この制限を克服するために、NVIDIA は PCIe の XNUMX 倍の帯域幅を提供する NVLink テクノロジを開発しました。これにより、XNUMX 台のサーバー内の XNUMX つの GPU をポイントツーポイント ネットワーク経由で接続し、混合キューブ メッシュを形成できます。

NVLink の最大のメリットは、従来の CPU 割り当てとスケジューリング メカニズムを回避し、GPU 間で直接データを交換できることです。この設計により、データ転送のレイテンシが短縮され、システム全体のスループットが大幅に向上します。さらに、NVlink GPC により、カード間の HBM2 メモリ データにアクセスでき、他の GPU 内の HBM2 データとのやり取りが可能になります。

マルチ GPU システムでは、NVLINK は XBAR としても機能し、異なる GPU 間のブリッジとして機能して、データの自由な流れを可能にします。PCIe バスとの競合を巧みに回避し、NVLink と PCIe が補完的なソリューションとして共存できるようにすることで、システムに必要なデータ転送機能を総合的に提供します。

NV スイッチはこの基盤の上に構築され、完全にノンブロッキングで相互接続された GPU システムをサポートします。中間 GPU ホップなしでより多くの NVLink インターフェイスを提供することで、より大規模な GPU 相互接続が可能になり、より強力なコンピューティング クラスターが実現します。

NVIDIA の技術進化において、Pascal アーキテクチャは初めて NVLink を導入し、高速チャネルを作成することで GPU 通信効率を大幅に向上させました。しかし、真の飛躍は次世代の Volta アーキテクチャで起こり、NVSwitch の誕生を伴いました。

NVSwitch はデータ転送ネットワークのインテリジェント ハブとして機能し、追加の NVLink リンクをサポートし、複数の GPU 間の完全な相互接続を可能にします。これにより、データ交換の効率と柔軟性が大幅に最適化されます。

複数のGPU間の完全な相互接続

図に示すように、Volta アーキテクチャでは GPU 間の通信速度が 300GB/秒を達成し、Hopper アーキテクチャではさらに 900GB/秒にまで向上しました。この成果の背景には、NVLink リンク数が Volta の 6 から Hopper の 18 に大幅に増加したことが挙げられます。これは、元の高速道路に高架やラウンドアバウトを追加するのと同じようなもので、GPU 間のデータフローをより効率的にし、高性能コンピューティングと大規模並列処理を強力にサポートします。

Voltaアーキテクチャが300G通信を実現

上の図は、DGX サーバーの GPU 相互接続のアーキテクチャを示しています。DGX-1 P100 には 8 つの GPU カードがあり、それぞれが GPU 間の高速通信を可能にする 4 つの NVLink リンクをサポートしています。これらの GPU は 4 つのキューブ メッシュに編成されており、各キューブには 0 つの GPU (GPU 3 ~ 4 および GPU 7 ~ 0) が含まれています。各キューブ内では、GPU は NVLink 経由で直接通信するか、PCIe スイッチを介して通信できます。ただし、キューブ間の通信 (GPU 4 と GPU XNUMX の間など) には、他の GPU を介した間接ルーティングが必要です。

DGX-2 では、NVIDIA の第 6 世代 NVSwitch テクノロジが導入されました。これは、GPU 間のより効率的な通信を可能にする重要な進歩です。Volta アーキテクチャでは、各 GPU カードは 4 つの NVLink リンク (6 つではなく) をサポートします。さらに、2 つの NVSwitch を組み込むことで、DGX-8 はサーバー内のすべての GPU を相互接続し、中間ホップなしで XNUMX 組の GPU 間の同時通信を可能にします。この直接的な高速通信により、データ転送の効率と全体的な計算パフォーマンスが大幅に向上します。

DGX-A100 は第 100 世代の NVSwitch テクノロジを採用しています。第 12 世代と比較して、第 6 世代の NVSwitch はより高い通信帯域幅とより低いレイテンシを提供します。A100 アーキテクチャでは、各 GPU カードが 8 個の NVLink (第 100 世代) リンクをサポートし、XNUMX 個の NVSwitch が完全に接続されたネットワーク トポロジを作成します。標準の DGX AXNUMX 構成には XNUMX 個の GPU カードのみが含まれていますが、システムを拡張してより多くの AXNUMX GPU と NVSwitch をサポートし、より大規模なスーパーコンピューティングを実現できます。

DGX-H100 は、第 18 世代の NVSwitch と第 100 世代の NVLink テクノロジを採用しています。各 GPU カードは 4 個の NVLink リンクをサポートします。H5 アーキテクチャでは、階層型トポロジを使用して 4 個の NVSwitch が導入されています。各カードは、4 個のリンクで最初の NVSwitch、5 個のリンクで 72 個目の NVSwitch、3.6 個のリンクで 1.5 個目の NVSwitch、XNUMX 個のリンクで XNUMX 個目の NVSwitch に接続します。これにより、合計 XNUMX 個の NVLink が XNUMX TB/s の双方向 NVLink ネットワーク帯域幅を提供し、前世代の XNUMX 倍の向上となります。

オリジナルの NVSwitch 設計は、大規模な並列処理のために、完全にブロックされていない、完全に相互接続された GPU システムを作成することを目的としていました。第 18 世代の NVSwitch は 16 個のインターフェイスをサポートし、最大 XNUMX 個の GPU を完全に相互接続して、効率的なデータ共有と通信を可能にしました。

V100 アーキテクチャ図に示されているように、各 GPU には 6 つの NVLink チャネルがあり、NVSwitch に接続して高帯域幅の通信ネットワークを形成します。DGX-2 システムでは、8 つの V100 GPU がこれらの NVLink チャネルを介して 6 つの NVSwitch に接続され、強力なバックボーンを形成します。

V100 GPU

上図に示すように、V100 アーキテクチャでは、各 GPU に NVSwitch に接続できる 6 つの NVLink チャネルがあり、高帯域幅の通信ネットワークを形成します。DGX-2 システムでは、8 つの V100 GPU がこれらの NVLink チャネルを介して 6 つの NVSwitch に接続され、強力なバックボーンを形成します。

NVLink

第 2.0 世代の NVSwitch は NVLink 50 テクノロジーをサポートしており、各インターフェイスはデュアル チャネルと最大 900 GB/秒の帯域幅を提供します。つまり、NVSwitch を通じてシステム全体で XNUMX GB/秒という驚異的な合計帯域幅が実現され、データ転送速度と計算効率が大幅に向上します。

さらに、NVSwitch は TSMC の 12nm FinFET FFN プロセスを使用して製造されており、最大 100 億個のトランジスタを統合しながら 200W の電力で動作することができます。

回路の I/O とパッケージングに関しては、NVSwitch は 1940 ピンの大型 BGA チップにパッケージ化されており、そのうち 576 ピンは 18 個の NVLink リンクをサポートするために専用に使用されています。残りのピンは、電源と、x4 PCIe 管理ポート、I2C、GPIO などのさまざまな I/O インターフェイスを処理し、システムの柔軟な管理と拡張機能を提供します。

具体的なパラメータは以下の表の通りです。

パラメータ nvSwitch

NVLink 双方向 BW 最大 50 GB/秒

実際の稼働率 最大80%

NVスイッチブロック

NVスイッチブロック

図に示すように、最初の NVSwitch ブロックには、左側に GPU XBAR が含まれています。これは、NVLink 相互接続環境向けに設計された高度に特殊化されたブリッジ デバイスであり、外部的には単一の GPU として表示しながら、複数の GPU 間でデータ パケットをやり取りできます。GPU XBAR により、クライアント アプリケーションは複数の GPU の総合的なパフォーマンスを活用できるため、クライアント側での GPU 間通信の管理の複雑さが軽減されます。

さらに、GPU XBAR は、静的ランダム アクセス メモリ (SRAM) に基づくバッファ テクノロジを利用して、非ブロッキング データ転送を実現します。このバッファリング メカニズムにより、高負荷時でも継続性と効率性が確保されます。

NVIDIA は、V100 GPU から NVLink IP ブロックと XBAR 設計を再利用し、異なる世代の製品間の互換性を確保し、開発コストと時間を削減しながら NVLink テクノロジの継続的な反復と最適化を可能にしました。

nvswitch 物理アドレス指定

この図は、NVSwitch と GPU が GPU 全体にデータを分散して転送する方法も示しています。プログラミングでは、開発者は通常、オペレーティング システムによって管理および抽象化された仮想アドレスを扱い、さまざまなプログラムに独立したアドレス空間を提供します。ただし、データはメモリ内の物理アドレスを使用して物理的に保存されます。これらの物理アドレスはメモリ内の特定の場所を直接指し、データ アクセスの基盤を形成します。図に示すように、NVLink 経由でデータを送信する場合、仮想アドレスではなく物理アドレスが使用されます。この選択により、データのインデックス作成とアクセス速度が高速化されます。

NVSwitch は、NVLink のブリッジ デバイスとして、高帯域幅の通信パスを提供するだけでなく、複雑なルーティングとバッファリングのメカニズムを管理して、正しい物理アドレスに基づいてデータ パケットが正確かつ迅速に宛先に送信されるようにします。NVLink 通信に物理アドレスを使用すると、ターゲット GPU でのアドレス変換の必要性が減り、レイテンシが低減し、データ転送速度が向上します。これは、大量のデータを迅速に処理する必要がある高性能コンピューティングや AI アプリケーションにとって非常に重要です。

NVSwitch: 簡素化の原則と機能

ギャング

NVSwitch を使用しない構成では、GPU 間の直接接続には通常、NVLink を複数のグループ (「ギャング」と呼ばれる) に集約する必要があります。この設定では、複数の GPU が共有 NVLink リンクを介して通信します。ただし、このアプローチの制限は、2 つの GPU 間の最大帯域幅が、それぞれのギャング内の NVLink の量と帯域幅によって制限されることです。

V60

NVSwitch の導入とその改善 NVIDIA の NVSwitch テクノロジーは、GPU 間の通信に革命をもたらします。高速スイッチである NVSwitch は、すべてのリンク間でデータのやり取りを可能にします。

NVSwitch アーキテクチャでは、任意の GPU ペアを直接相互接続することができ、6 つの NVLink の合計帯域幅を超えない限り、個々の GPU トラフィックは非ブロッキング伝送を実現します。つまり、NVSwitch がサポートする完全に相互接続されたアーキテクチャにより、パフォーマンスを犠牲にすることなく、より多くの GPU に対応するためにシステムを簡単に拡張できます。各 GPU は、NVLink が提供する高帯域幅を活用して、迅速なデータ交換を行うことができます。

マルチ GPU 相互接続における NVSwitch の利点と機能:

スケーラビリティと拡張性: NVSwitch の導入により、GPU クラスターのスケーラビリティが大幅に向上します。NVSwitch を追加するだけで、システムは追加の GPU をシームレスにサポートし、計算能力を拡張できます。

効率的なシステム構築: たとえば、3 つの NVSwitch を使用して 8 つの GPU を効率的に相互接続できます。この設計により、すべての GPU リンク間でデータが自由に流れるようになり、データ循環の柔軟性と効率が最大限に高まります。

双方向帯域幅使用率: この構成では、どの GPU ペアでも、通信に 300 GBps の双方向帯域幅をフルに活用できます。各 GPU は高速で低遅延のデータ転送を実現し、計算タスクの処理速度を大幅に向上させます。

非ブロッキング通信: NVSwitch 内のクロスバー スイッチ (XBAR) は、データ転送用にポイント A からポイント B への独自のパスを提供します。この設計により、ブロッキングのない干渉のない通信が保証され、データ転送の信頼性とシステム全体のパフォーマンスがさらに向上します。

最適化されたネットワークトポロジ: NVSwitchはネットワークトポロジ構造をサポートし、 off大規模な GPU クラスターを構築するための最適化されたソリューションを提供します。システム設計者は、特定の計算要件に基づいて GPU 間接続を柔軟に構成できます。

第 3 世代 NVSwitch

第 3 世代 NVSwitch

図に示すように、第4世代NVSwitchはTSMCの64Nプロセスを使用して製造されており、多数のトランジスタと高帯域幅を備えているにもかかわらず、比較的低い消費電力を維持しています。4個のNVLink 3.2リンクポートを提供し、各GPU間の高速通信を維持しながら、多数のGPUを含む複雑なネットワークを構築できます。また、XNUMXTB/sの双方向帯域幅をサポートし、データ転送速度を大幅に向上させ、データセットの大規模な並列処理をより効率的にします。

第 256 世代 NVSwitch は、サーバー内で複数の GPU カードを接続するだけでなく、GPU サーバーを外部に接続して完全な高速 GPU クラスターを形成することもできます。第 100 世代 NVSwitch チップで構成された物理スイッチは、最大 57.6 個の HXNUMX GPU を備えたクラスターを作成し、合計 XNUMX TB/秒の帯域幅を提供できます。

信号技術に関しては、50 Gbaud PAM4信号方式を採用し、各差動ペアは100 Gbpsの帯域幅を提供し、高速伝送と低遅延を維持します。

NVSwitch は、all_gather、reduce_scatter、ブロードキャスト アトミックなどの操作を含む NVIDIA SHARP テクノロジを統合し、クラスター通信を高速化し、パフォーマンスをさらに向上させます。NVSwitch 3.0 の物理的な電気インターフェイスは、400 Gbps イーサネットおよび InfiniBand と互換性があり、既存のネットワーク テクノロジとの相互運用性を保証します。

ポートロジック

NVIDIA の第 3 世代 NVSwitch には、いくつかの革新的な機能が導入されています。新しい SHARP モジュールと NVLink モジュールの組み込みにより、図に示すように、GPU 間の効率的な通信とデータ処理が大幅に向上します。

新しいSHARPモジュール

新しく導入された SHARP モジュールは、強力な処理能力でデータのシンフォニーをリードするインテリジェントな指揮者として機能します。論理演算から算術演算までさまざまな演算子をサポートし、FP16 や BF16 などの複数のデータ形式と互換性があるため、AI および機械学習のワークロードを強力にサポートします。SHARP コントローラーの設計により、最大 128 個の SHARP グループの並列管理が可能になり、マルチタスクの千手観音に似て、データの並列処理効率が大幅に向上します。

NVSwitch 内のクロスバー スイッチ (XBAR) は、細心の注意を払って調整および最適化されており、SHARP モジュールのデータ転送要件に完全に適合しています。この連携設計により、GPU 間の効率的で低遅延のデータ転送が保証され、疾走する馬のようにシステム全体のパフォーマンスが向上します。

新しいNVLinkモジュール

統合された新しい NVLink モジュールは、データとチップのセキュリティ保護を強化し、不正アクセスや潜在的なデータ漏洩に対する強力なシールドとして機能するだけでなく、データ セキュリティも強化します。ポート パーティショニングの導入により、戦略的なチェスの動きのように、さまざまなポートが個別の NVLink ネットワークに分離され、異なるネットワーク間で論理リソースをパーティショニングする柔軟性が向上し、マルチタスク機能が最適化されます。

次世代のOctal Small Formfactor Pluggable(OSFP)ケーブルのサポートにより、将来のネットワーク拡張のための強固な基盤が確保されます。これらのケーブルは offデータ転送速度が向上し、信号減衰が少なくなるため、長距離の高速通信に適しており、ネットワークの拡張性に無限の可能性をもたらします。

新しい NVLink モジュールはテレメトリ機能も拡張し、システム管理者がネットワーク パフォーマンスを正確に監視および最適化して、安定したシステム動作を確保できるようにします。統合された前方誤り訂正 (FEC) テクノロジは、特に信号の減衰や干渉が発生した場合にデータ伝送の信頼性を高め、データの整合性と精度を保証する監視役として機能します。

H100 GPU が NVLink ネットワークを利用する場合、IB ネットワークを使用する A100 GPU と比べてどれくらい高速になるでしょうか? DGX A100 256 POD と DGX H100 256 POD の帯域幅を比較してみましょう。

H100 GPU 向け InfiniBand (IB) と NVLink ネットワークの比較

DGX A100 内部帯域幅:

各 DGX A100: 8/2 * 600 GB/秒 = 2400 GB/秒

32 台の DGX A100 (256 台の A100 GPU) で、サーバーあたり 8 台の 200Gbps HDR NIC と TOR スイッチのコンバージェンス比が 4:1 であると仮定した場合:

総帯域幅 = 256/2/4 * 200 GB/秒 = 6400 GB/秒

DGX H100 内部帯域幅:

各 DGX H100: 8/2 * 900 GB/秒 = 3600 GB/秒

32 台の DGX H100 (256 台の H100 GPU) で、収束率は 2:1 です。

総帯域幅 = 256/2/2 * 900 GB/秒 = 57600 GB/秒

DGX A100 と比較すると、100 台の DGX H1.5 で帯域幅が 3 倍、双方向帯域幅が 32 倍増加します。100 台の DGX H9 を使用すると、レーンあたりの帯域幅は 4.5 倍、双方向帯域幅は XNUMX 倍向上します。

ニューラルレコメンダーエンジン

まとめ

今日のデータ主導の時代では、ハイパフォーマンス コンピューティングの需要が技術の限界を押し広げ続けています。GPU 間の通信ブリッジとして機能する NVIDIA の NVSwitch テクノロジは、効率的なコンピューティング クラスターの構築に重要な役割を果たします。最初の NVSwitch の誕生から第 3 世代のイノベーションまで、NVIDIA の計算効率に対する飽くなき追求は明らかです。NVSwitch は、データ転送の帯域幅と速度を向上させるだけでなく、SHARP および NVLink モジュールを通じてデータ処理機能とシステム セキュリティを強化します。その存在により、マルチ GPU システムの効率的な連携が可能になり、人工知能、機械学習、ビッグ データ分析などの分野に強力なサポートを提供します。テクノロジが進歩するにつれて、NVSwitch はハイパフォーマンス コンピューティングの分野で極めて重要な役割を果たし続け、NVIDIA のイノベーションを象徴し、業界の進歩を推進します。NVSwitch に導かれて、私たちはよりスマートで効率的で相互接続された未来を期待しています。

コメント

上へスクロール