AI時代に求められるネットワークとは?

インターネットについて語るとき、人々はそれを高速道路に例えることが多い。ネットワークカードは高速道路の出入り口のゲートに相当し、データパケットはデータを運ぶ車に相当し、交通規制は「伝送プロトコル」に相当する。

高速道路が渋滞するのと同じように、 ネットワークのデータハイウェイでも輻輳の問題が発生する可能性がある特に、今日の人工知能の急速な発展の時代においては、データセンター ネットワークに対する要求はさらに高まっています。

今日は AI時代のニーズを満たすネットワークとは.

現在のインターネットが機能しないのはなぜですか?

インターネットは長年にわたって開発されてきましたが、なぜ最近になって頻繁に話題に上がるようになったのでしょうか。従来のネットワークが現代のデータセンターのボトルネックになっているのはなぜでしょうか。

これは間違いなく、AIや機械学習などの集中的なコンピューティングシナリオと密接に関係しています。これらのシナリオでは、コンピューティングパワーの需要が高まっています。IDCの統計によると、コンピューティングパワーの世界的な需要は3.5か月ごとにXNUMX倍になり、現在のコンピューティングパワーの成長率をはるかに上回っています。コンピューティングパワーの需要の増加に対応するには、コンピューティングパワーを増やすと同時に、コンピューティングパワーの利用効率と通信パフォーマンスを十分に向上させる必要があります。データセンターのXNUMXつのコアコンポーネントのXNUMXつとして、データセンターネットワークは課題に直面します。

これは、従来のノイマンアーキテクチャシステムでは、ネットワークは一般的にデータ転送の役割のみを果たし、計算はCPUまたはGPUに集中しているためです。ChatGPTやBERTなどの大規模で複雑なモデルが、並列計算のために多数のGPUにワークロードを分散すると、大量のバースト勾配データ転送が発生し、ネットワークの輻輳につながりやすくなります。

これは、従来のフォン・ノイマン・アーキテクチャの自然な欠点です。コンピューティング能力が向上した AI 時代では、帯域幅を増やしても、レイテンシを減らしても、このネットワークの問題を解決することはできません。

では、データセンター ネットワークのパフォーマンスを継続的に向上させるにはどうすればよいでしょうか?

ネットワークパフォーマンスを向上させる新しい方法はありますか?

ネットワーク パフォーマンスを向上させる従来の方法は、帯域幅を増やすこととレイテンシを減らすことの 2 つです。この 2 つの方法は理解しやすく、高速道路で貨物を輸送する場合と同じように、道路の幅を広げるか、道路の制限速度を上げることで、ネットワークの混雑の問題を解決できます。

日常生活でインターネット接続が遅いと感じた場合、私たちは追加料金を支払ってより高い帯域幅にアップグレードするか、より高性能なネットワーク機器を購入するかという 2 つの方法を採用します。

しかし、この2つの方法では、ネットワークをある程度までしか改善できません。帯域幅が一定の幅にアップグレードされ、設備が一定のレベルに達すると、ネットワークの実際のパフォーマンスをさらに向上させることは難しくなります。これは、現在のAI時代のネットワークのボトルネックの主な原因でもあります。

ネットワークを改善するためのより良い解決策はありますか?

答えはイエスです。モデルのトレーニングを加速し、大規模なデータセットを処理するために、NVIDIA は世界の AI コンピューティング パワーのリーダーとして、従来のネットワークのボトルネックを長い間発見してきました。この目的のために、NVIDIA は、データを中心にコンピューティングを展開するという新しい道を選択しました。簡単に言えば、データがあるところにコンピューティングがあります。データが GPU 上にあるときは、コンピューティングも GPU 上で行われ、データがネットワークで送信されるときは、コンピューティングもネットワーク内で行われます。

つまり、ネットワークはデータ転送のパフォーマンスを保証するだけでなく、いくつかのデータ処理計算も実行する必要があります。

この新しいアーキテクチャにより、CPU または GPU は得意とするコンピューティング タスクに集中でき、一部のインフラストラクチャ操作のワークロードをネットワーク接続ノードに分散することで、ネットワーク伝送におけるボトルネック問題やパケット損失問題を解決できます。この方法により、ネットワーク遅延を 10 倍以上削減できることがわかっています。

そのため、インフラストラクチャ コンピューティングは、現在のデータ中心のコア コンピューティング アーキテクチャの重要なテクノロジの 1 つになっています。

DPU がネットワークの改善をもたらすのはなぜですか?

インフラストラクチャ コンピューティングに関して言えば、DPU の概念について言及する必要があります。DPU の正式名称は Data Processing Unit です。これはデータ センターの 3 番目のメイン チップです。その主な目的は、一般的なコンピューティングを除く、データ センターの CPU のインフラストラクチャ ワークロードを共有することです。

NVIDIAはDPU分野における世界的な先駆者です。2020年上半期にイスラエルのネットワークチップ企業Mellanox Technologiesを6.9億ドルで買収し、同年にBlueField-2 DPUを発売してCPU、GPUに次ぐ「第XNUMXのメインチップ」と定義し、DPUの開発を正式に開始しました。

すると、この DPU はネットワーク内でどのような役割を果たすのかと疑問に思う人もいるでしょう。

これを説明する例を挙げてみましょう。

レストランを経営するのと同じように、昔は人が少なく、社長が仕入れ、洗浄とカット、食器の準備、調理、料理の提供、レジ打ちなどのすべての作業を担当していました。CPUと同様に、数学的および論理的な演算を実行するだけでなく、外部デバイスを管理し、異なるタスクを異なる時間に実行し、ビジネスアプリケーションの実行のニーズに合わせてタスクを切り替える必要があります。

しかし、接客するお客様の数が増えると、さまざまなタスクをさまざまな人が分担する必要があります。シェフが食材を準備できるように、複数の店員が食材の仕入れ、洗浄、カット、調理を担当します。料理の準備の効率を上げるために、複数のシェフが並行して調理します。複数のテーブルのお客様のサービス品質を確保するために、複数のウェイターがサービスを提供し、料理を運びます。そして、ボスはレジと管理のみを担当します。

このように、店員とウェイターのチームは DPU のようにデータを処理および移動し、シェフのチームは GPU のようにデータに対して並列コンピューティングを実行し、ボスは CPU のようにビジネス アプリケーションの要件を取得して結果を提供します。

CPU、GPU、DPU はそれぞれがそれぞれの機能を実行し、連携して処理が得意なワークロードを最大限に活用することで、データセンターのパフォーマンスとエネルギー効率を大幅に向上させ、投資収益率を向上させます。

NVIDIA はどのような DPU 製品を発売しましたか?

NVIDIA は 2 年に BlueField-2020 DPU をリリースした後、AI ワークロードの固有のニーズに対応するため、3 年 2021 月に次世代データ プロセッサである NVIDIA BlueField-XNUMX DPU をリリースしました。

BlueField-3 は、AI と高速コンピューティング向けに設計された初の DPU です。BlueField-3 DPU は、データセンター インフラストラクチャのワークロードを効果的にオフロード、高速化、分離できるため、貴重な CPU リソースを解放して重要なビジネス アプリケーションを実行できると考えられています。

AI時代

AI時代

最新のハイパースケール クラウド テクノロジーは、データ センターを根本的に新しいアーキテクチャへと導き、データ センター インフラストラクチャ ソフトウェア専用に設計された新しいタイプのプロセッサを活用して、仮想化、ネットワーク、ストレージ、セキュリティ、その他のクラウド ネイティブ AI サービスによって生成される膨大な計算負荷をオフロードし、高速化します。BlueField DPU はこの目的のために開発されました。

業界初の 400G イーサネットおよび NDR InfiniBand DPU である BlueField-3 は、卓越したネットワーク パフォーマンスを備えています。要求の厳しいワークロードに対応するソフトウェア定義のハードウェア アクセラレーション データ センター インフラストラクチャ ソリューションを提供でき、AI をハイブリッド クラウドや高性能コンピューティング、さらには 5G ワイヤレス ネットワークへと加速します。BlueField-3 DPU は、さまざまな可能性を再定義します。

BlueField-3 DPU をリリースした後も、NVIDIA は探求を止めていません。NVIDIA は、大規模モデルの出現と普及に伴い、GPU クラスターの分散コンピューティング パフォーマンスと効率を向上させ、GPU クラスターの水平拡張機能を向上させ、生成 AI クラウド上でビジネス パフォーマンスの分離を実現する方法が、すべての大規模モデル メーカーと AI サービス プロバイダーの共通の関心事になっていることを発見しました。

このため、NVIDIA は 2023 年末に、東西トラフィックのパフォーマンスを最適化する BlueField-3 SuperNIC をリリースしました。これは BlueField DPU から派生したもので、DPU と同じアーキテクチャを使用していますが、DPU とは異なります。DPU はインフラストラクチャ操作のオフロードに重点を置いており、南北トラフィックを高速化および最適化します。BlueField SuperNIC は、InfiniBand ネットワーク上の動的ルーティング、輻輳制御、パフォーマンス分離などのテクノロジを活用し、クラウド上のイーサネット標準の利便性と互換性があるため、生成 AI クラウドのパフォーマンス、スケーラビリティ、マルチテナントの要件を満たしています。

NVIDIA BlueField-3 ネットワーキング プラットフォーム

NVIDIA BlueField-3 ネットワーキング プラットフォーム

要約すると、現在の NVIDIA BlueField-3 ネットワーク プラットフォームには、ソフトウェア定義、ネットワーク ストレージ、セキュリティ タスクの速度制限処理用の BlueField-3 DPU と、超大規模 AI クラウドを強力にサポートするように特別に設計された BlueField SuperNIC の XNUMX つの製品が含まれています。

DPU における DOCA の用途は何ですか?

DPU について話すとき、DOCA について話すことがよくあります。では、DOCA とは何でしょうか? DPU にとって DOCA の価値は何でしょうか?

上記から、NVIDIA には BlueField-3 DPU と BlueField-3 SuperNIC という XNUMX つの製品があり、現在の AI コンピューティング能力の急増を大幅に加速できることがわかります。

しかし、現時点では、ハードウェア製品だけに頼っていては、現在のさまざまなアプリケーション シナリオに対応することは難しいため、ソフトウェアの力に頼る必要があります。

CUDA は、コンピューティング パワー市場でよく知られている GPU 向けソフトウェア プラットフォームです。ネットワーク プラットフォームのニーズに応えて、NVIDIA は同様のハードウェアとソフトウェアの統合アクセラレーション方式を採用しました。3 年前には、DPU 向けにカスタマイズされたソフトウェア開発プラットフォームである DOCA もリリースされており、現在は BlueField-XNUMX SuperNIC にも適用できます。

NVIDIA DOCA には、DOCA 開発者に「ワンストップ サービス」を提供する豊富なライブラリ、ドライバー、API があり、クラウド インフラストラクチャ サービスの高速化の鍵にもなります。

AI クラウド コンピューティング用の NVIDIA DOCA ソフトウェア

AI クラウド コンピューティング用の NVIDIA DOCA ソフトウェア

フルスタック コンポーネントである DOCA は、コンピューティング、ネットワーク、ストレージ、セキュリティを結び付け、AI パズルを解く上で重要な役割を果たします。DOCA を使用すると、開発者は、ゼロ トラスト保護をサポートするソフトウェア定義のクラウド ネイティブな DPU および SuperNIC アクセラレーション サービスを作成し、最新のデータ センターのパフォーマンスとセキュリティのニーズを満たすことができます。

2.7 年間の反復的なアップグレードを経て、DOCA XNUMX は、データセンターのネットワーク、ストレージ、セキュリティ、インフラストラクチャの管理のオフロード、高速化、分離における BlueField DPU の役割を拡大するだけでなく、AI クラウド データセンターをさらに強化し、NVIDIA Spectrum-X ネットワーク プラットフォームを高速化して、AI ワークロードに優れたパフォーマンスを提供します。

GPU と NVIDIA BlueField-3DPU または BlueField–3 SuperNIC における DOCA の主な役割を見てみましょう。

ブルーフィールド-3 DPUBlueField-3 SuperNIC
タスク    > クラウド インフラストラクチャ プロセッサ
> データセンターインフラストラクチャをアンインストール、高速化、分離する
> GPUレベルのシステムでNS向けに最適化
> 優れたRoCE
> AIコンピューティングネットワーク向け
> GPUレベルのシステムでEWに最適化 
共有機能   > VPC ネットワーク アクセラレーション
> ネットワーク暗号化アクセラレーション
> プログラマブルネットワークパイプライン
> 正確なタイミング
> プラットフォームのセキュリティ
ユニークな特徴 > 強力なコンピューティングパワー
> 安全なゼロトラスト管理
> データストレージの高速化
> 柔軟なインフラストラクチャ構成
> システムあたり 1 ~ 2 DPU 
> 強力なネットワーク
> Alネットワーク機能セット
> フルスタック NVIDIA AI 最適化
> エネルギー効率の高いセミハイデザイン
> システムあたり最大 8 個の SuperNIC

要約すると、NVIDIA DOCA は、DPU と SuperNIC にとって、CUDA が GPU にとってであるのと同じ役割を果たします。DOCA は、最新のデータ センター インフラストラクチャのプログラミングと高速化のための幅広い強力な API、ライブラリ、およびドライバーを統合します。

DOCA 開発は次なるブルーオーシャン路線となるか?

AI、ディープラーニング、メタバースなどの技術シナリオの出現により、より多くのイノベーションとアイデアを実現するために、ますます多くの企業がより多くのDOCA開発者の参加を必要としていることは間違いありません。有名なクラウドサービスプロバイダーはDPUの需要が高まっており、データセンターのパフォーマンスを最適化するためにDOCAハードウェアアクセラレーションテクノロジーを使用する必要があります。

DOCAが開発者向けに提供するツール

DOCAが開発者向けに提供するツール

また、企業の効率的で安全なデータ処理に対する需要が高まるにつれて、DOCA 開発は、クラウド インフラストラクチャ エンジニア、クラウド アーキテクト、ネットワーク エンジニアなどの職種が競争上の優位性を獲得するためのスキルにもなっています。さらに、DOCA 開発者は、ソフトウェア定義、クラウド ネイティブ、DPU アクセラレーション サービスを作成することもできます。DOCA 開発に参加することで、個人のスキルが向上するだけでなく、テクノロジー コミュニティにおける影響力も高まります。

現在、DOCA 開発者の数は市場の需要を満たすには程遠い。公式データによると、全世界で 14,000 人以上の DOCA 開発者がおり、そのうちの半数近くが中国出身だ。人数は多いように思えるが、全世界で 5 万人の開発者がいる CUDA と比較すると、DOCA 開発者にはまだまだ成長の余地がある。

しかし結局のところ、DOCA はわずか 30 年前にリリースされたのに対し、CUDA には XNUMX 年近くの歴史があります。もちろん、これは DOCA がまだ開発の初期段階にあり、大きな可能性を秘めていることも示しています。

NVIDIA は、より多くの開発者が DOCA の開発に参加するよう促すため、近年、DOCA 中国開発者コミュニティの準備と実装、DOCA 開発者向けのオンラインおよびオフラインのトレーニング キャンプの開催、DOCA 開発者ハッカソン コンテストの開催など、さまざまな活動を通じて開発者への支援を積極的に提供してきました。

それだけでなく、2024 年 XNUMX 月には、マカオ科技大学で NVIDIA DPU プログラミング入門コースが正式に開始されました。公開されているコース概要によると、このコースの内容には、NVIDIA BlueField ネットワーク プラットフォームと NVIDIA DOCA フレームワークが AI コンピューティングを加速する方法についての包括的な紹介が含まれており、大学生が AI 時代に競争上の優位性を獲得するのに役立ちます。

転職を希望する開発者や卒業を控えた大学生にとって、DOCA 開発は多くの人が期待している方向性です。

今年初めに終了した NVIDIA DOCA アプリケーション コード共有イベントでは、多くの大学生を含む多くの開発者が目覚ましい活躍を見せ、賞を受賞しました。このイベントで最優秀賞を受賞した Chen Qin さんは、コンピューター サイエンスとテクノロジーの修士課程の学生です。彼は次のように述べています。「DOCA の開発を通じて、自分の能力が向上しただけでなく、潜在的な就職のチャンスも得られました。また、コミュニティの先輩たちから多くの評価を受け、自分に自信が持てるようになりました。」

現在、NVIDIA DOCA China 開発者コミュニティは成長を続けており、さまざまなアクティビティやコンテンツが引き続き発表される予定です。これは間違いなく、DOCA 開発に参加したい人にとって良い時期です。

コメント

上へスクロール