人工知能 (AI) の使用は、健康、金融、自動運転車など、さまざまな分野を強化し、今日の世界の発展を後押ししてきました。AI アプリケーションの数が増えるにつれて、より多くの計算能力に対する要件が高まります。NVIDIA は、高負荷の AI ワークロードに最適化された最先端のスーパーコンピューターを製造していることで知られています。DGX と HGX は、NVIDIA のスーパーコンピューター ポートフォリオの 2 つの有名な製品ラインです。この記事では、NVIDIA DGX スーパーコンピューターと NVIDIA HGX スーパーコンピューターの違いを明らかにし、機関や学者が AI 計算要件に最適なものを選択する際に明確な理解を得られるようにすることを目指しています。
NVIDIA DGX と NVIDIA HGX の主な違いは何ですか?
NVIDIA DGX および HGX システムの概要
NVIDIA DGX は、AI 開発およびトレーニング システムのために開発されました。これらのシステムには、ディープラーニングや GPU アクセラレーション タスク向けに最適化されたハードウェア スタックとソフトウェア スタックが統合されています。このため、事前構成済みの設定と簡単な導入プロトコルが含まれており、これらはすべて NVIDIA のソフトウェア エコシステムによってサポートされており、研究環境やエンタープライズ環境でのターンキー ソリューションに最適です。
一方、ハイパフォーマンス コンピューティング (HPC) サーバーは、スケーラビリティを考慮して構築されています。データ センターなどの企業では、AI ワークロードが多数のマシンに分散される可能性があります。NVIDIA のこれらのサーバーの設計では、特定のニーズに合わせてカスタマイズできます。これは、データ センターにあるような大規模なインフラストラクチャ内での使用を可能にするモジュール機能によって実現されています。ディープ ニューラル ネットワークを使用して大量のデータでモデルをトレーニングするなど、特定の目的のために特別に設計されている場合は、特定の種類の CPU またはネットワーク構成のみに制限されますが、HPC サーバーは、さまざまなケースで最適なものに応じて任意の CPU アーキテクチャで動作し、組織独自の設定で動作しながら必要なサポートとともに柔軟性も提供します。
詳細比較: NVIDIA DGX と NVIDIA HGX
目標と応用
- NVIDIA DGX: プラグアンドプレイ ソリューションによる AI 開発、研究、トレーニング。
- NVIDIA HGX: さまざまなカスタマイズ オプションに対応する HPC およびスケーラブルな AI インフラストラクチャ。
ハードウェアの互換性
- NVIDIA DGX: 事前設定された構成を備えた統合ハードウェア ソフトウェア スタック。
- NVIDIA HGX: さまざまな CPU アーキテクチャと柔軟に組み合わせることができるコンポーネントベースの設計。
サポートと展開
- NVIDIA DGX: NVIDIA の広大なソフトウェア エコシステムに支えられたシンプルな導入手順。
- NVIDIA HGX: カスタマイズされた展開と統合のためのカスタマイズ可能なコンピューティングが必要です。
スケーラビリティ
- NVIDIA DGX: 中小企業や研究施設に最適です。
- NVIDIA HGX: 分散 AI ワークロードを含む大規模なデータ センター全体でスケーラブルです。
カスタマイズの可能性
- NVIDIA DGX: 箱から出してすぐに動作するように設計されているため、カスタマイズできる部分はあまりありません。
- NVIDIA HGX: ユーザーの特定のニーズや要件に合わせて高度にカスタマイズできます。
化する強力なツール群
- NVIDIA DGX: 主にディープラーニングや GPU アクセラレーションタスク全般向けに最適化されています。
- NVIDIA HGX: 主に高性能のスケーラビリティに最適化されています。
NVIDIA HGX と NVIDIA DGX の AI パフォーマンスはどのように異なりますか?
生成AIの要件
AI の生成 (通常は大規模な言語モデルのトレーニングや高度な人工知能アプリケーションの作成に適用される) には、大量の情報を処理する効率だけでなく、多くの計算能力も必要です。
- パフォーマンスとスループット: 比較すると、100 つのシステムは主にパフォーマンスとスループットの点で異なります。DGX はリアルタイム生成タスクを実行する必要があるときに低遅延推論に使用できますが、一方、HGX は、計算負荷が非常に高く、通常は大規模なクラスターまたはスーパーコンピューターで実行される大規模なデータセットに特に注意を払って設計されています。つまり、このプラットフォームは、そのアーキテクチャによりさまざまな構成の CPU に統合できるため、現在利用可能な他のどのシステムよりもはるかに優れた方法でこれらのデータセットを処理できます。これにより、AMD EPYC プロセッサと、NVLink を介して相互接続された複数の AXNUMX GPU など、さまざまな組み合わせをサポートできます。
- 展開と利便性: また、これら 2 つのプラットフォームには、導入オプションと利便性のレベルに関しても違いがあります。ただし、サイズや数の点での拡張性に関しては、DGX よりも柔軟性があります。たとえば、最初は少数のユニットのみを使用して小規模に開始し、需要に応じて徐々にユニットを追加できますが、ある時点で多数のユニットが必要になる可能性があり、消費電力の増加により高品質の冷却システムが必要になる場合があります。
結論として、Nvidia HGX は、常時稼働、無制限のリソース、複数のラックにわたるスケーリング、完全な準備、純粋なコンピューティング能力を必要とする幅広い生成ユースケースに従事する組織に必要な柔軟性を提供しますが、DGx は、シンプルさ、使いやすさ、最も一般的なディープラーニングフレームワークの最適化、ライブラリのプリインストール、すぐに使えるボックス、ラップトップのようなフォームファクタ、静かな動作、簡単な持ち運びなどにより、市場投入までの時間を短縮します。
データセンターのパフォーマンス最適化
AI によるデータ センターのパフォーマンスの最適化に関して、NVIDIA HGX と NVIDIA DGX の違いは何ですか?
- NVIDIA HGXデータ センターのパフォーマンスを最適化する最善の方法は、他のどのプラットフォームにも匹敵しないスケーラビリティです。これにより、さまざまな種類の CPU の統合や、大規模なデータの処理が可能になり、効率性を高めながらスループットを向上させることができます。このような特性により、このシステムは、特に NVIDIA の DGX と連携する場合に、他のシステムよりも柔軟性が高くなります。
- NVIDIA DGX: データセンター内でパフォーマンスを最適化したい場合のもう1つの選択肢は、次のような包括的なパッケージを選択することです。 NVIDIA DGX システムこれらは箱から出してすぐに使用できるため、セットアップやインストールにかかる時間を節約できます。また、ディープラーニング アプリケーション専用に設計されたハードウェアおよびソフトウェア コンポーネントが組み込まれているため、そのような機能が緊急に必要とされる既存の環境に簡単に統合できます。これらの機能により、組織は AI 研究プログラムを予想よりもはるかに早く開始できます。
NVIDIA HGXとDGXのどちらを選択するかは、センターに何を求めているか(それぞれスケーラビリティまたは最適化されたディープラーニング機能)によって異なります。
人工知能ワークロード向け HGX の特徴
NVIDIA HGX には、AI ワークロードの改善のために特別に作成された独自の機能が多数あります。これには次のものが含まれます。
- スケーラビリティ: 水平方向または垂直方向に拡張できるため、AI データセットのサイズや計算要件の増加に合わせて拡張できます。
- 柔軟性: さまざまな CPU を考慮して設計されているため、互換性の問題を引き起こすことなく、あらゆるデータ センター環境に簡単に適合します。
- スループットデータ管理機能を最適化することで、大量の情報処理が可能になります。
- 高度なネットワーク: 高速相互接続を使用して、コンポーネント間の遅延を削減しながら、データ転送速度を向上させます。
- エネルギー効率: エネルギー消費は許容範囲内ですが、同時に高いパフォーマンスを実現し、運用コストを削減します。これは、NVIDIA HGX A100 および HGX B200 プラットフォームを使用する場合に特に顕著です。
- モジュール性: 将来の AI テクノロジーと互換性を持たせるために簡単にアップグレードまたは変更できるため、柔軟性が高く、時間の経過とともに AI が進化しても有用性が維持されます。
AI プロジェクトにとってより良い選択肢は NVIDIA HGX か NVIDIA DGX か?
DGX および HGX プラットフォームの長所と短所
NVIDIA DGX
Advantages:
- 展開の簡素化 - インストールとセットアップのプロセスを簡素化します。
- ディープラーニングの最適化 - 機械学習専用に設計された完全なハードウェア ソフトウェア スタックにより、ディープラーニング向けに最適化されています。
- すぐに使えるソリューション - 追加の構成を必要としないオールインワン パッケージを提供します。
短所:
- スケーラビリティが制限されています。大規模な構成やカスタマイズされた構成の場合、柔軟性があまりありません。
- 高価 – 統合ソリューションは高額です。
- ユースケース固有 – 主にディープラーニングに適しており、他のアプリケーションへの適応性に欠ける場合があります。
NVIDIA HGX
Advantages:
- スケーラブル - 優れた水平および垂直スケーリングの AI インフラストラクチャ。
- 柔軟性 - さまざまな CPU アーキテクチャをサポートし、展開の柔軟性を高めます。
- 高性能 - データ集約型のワークロード向けの高度なネットワークと高スループットを実現します。
短所:
- 複雑な展開 - 特に DGX ステーションのセットアップ時には、構成と統合にさらに専門知識が必要になります。
- モジュールのコスト - カスタム設定ではコストが高くなる可能性があります。エネルギー消費: 大規模でもエネルギー効率の高い展開でも、かなりの電力を消費する可能性があります。
AI ニーズの評価
- プロジェクトの規模: よりターンキーなソリューション (NVIDIA DGX) に取り組むべきでしょうか、それともスケーラブルなインフラストラクチャ (NVIDIA HGX) に取り組むべきでしょうか?
- 資金の制約: すべての予算を DGX で一度に使用するのが最善か、それとも HGX の方がカスタマイズ オプションは優れているものの、長期的にはコストが高くなる可能性があるかを判断します。
- 特定のユースケース: ディープラーニングだけがあなたの焦点ですか? そうでない場合は、可能な限り幅広い人工知能アプリケーションである NVIDIA HGX をお試しください。
- 技術力: 複雑なセットアップ (NVIDIA HGX) を管理できますか、それとも NVIDIA DGX が提供するシンプルなインストール プロセスが必要ですか?
必要なパフォーマンス レベル: HGX によってもたらされる高スループットと高度なネットワーク機能と、DGX によって提供される最適化されたディープラーニング パフォーマンスのどちらがより適しているでしょうか。
HGX と DGX の具体的な機能は何ですか?
HGX プラットフォームの高度な冷却システム
大量の熱を発生する高密度の計算ワークロードを処理するために、HGX プラットフォームには高度な冷却システムが搭載されています。通常、このような冷却ソリューションでは、従来の空冷方法よりも効果的に熱を放散できる液体冷却技術が使用されています。これは、重要な部品から熱エネルギーを効率的に移動させて最適な動作温度に保つポンプを介して熱交換器に接続された冷却プレートで構成されています。これにより、厳しい動作状況でもシステムは最高の効率で動作し続けるため、信頼性が高く、熱スロットリングの影響を受けにくくなります。
HGX H100 と DGX H100 の比較
HGXH100:
- 対象者: すでに技術力を高めている大企業です。
- 構成: 複雑な環境に適した、高度にカスタマイズ可能な構成。
- パフォーマンス: 高スループットまたは特殊なアプリケーションで最適に機能します。
- 冷却: 高度な液体冷却システムによる最大限の効率。
DGXH100:
- 対象者: これらの組織は技術的なリソースが少ないです。
- 構成: 展開をより迅速かつ容易にするために事前に構成されています。
- パフォーマンス: トランスフォーマー、RNN、CNN などのさまざまなモデルで実行できるディープラーニング タスク向けに最適化されています。
- 冷却: 冷却システムは、より効率的に機能する空冷式または基本的な液冷式にすることができます。
8x NVIDIA 構成が発表されました
8x NVIDIA 構成とは、XNUMX 枚のグラフィック カードを搭載できるシステムを意味します。これらは、ハイパフォーマンス コンピューティング (HPC)、データ分析、人工知能 (AI) に最大限のコンピューティング能力と効率性を提供するように設計されています。
注目すべき点:
- スケーラビリティ: 多数の GPU 間で大規模な並列処理が可能になり、大規模な展開のサポートが可能になるため重要です。
- パフォーマンス: これは、計算量の多いワークロードを処理する場合に、追加の速度を与えるために必要です。
- 柔軟性: これらは、特定のニーズに合わせて調整できるため、汎用性が最も必要とされるさまざまなコンピューティング環境に適用できます。
これらの構成により、すべてのコンポーネントが 1 つのユニットとして連携して動作し、すべてがスムーズに実行されます。つまり、複雑なデータ セットを迅速に処理できると同時に、必要な処理に応じて、数値を大きくしたり、速度を速めたりすることで計算を高速化できます。
NVIDIA HGX システムにとって AI とデータ センター環境はどのようなものですか?
NVIDIA HGX システム エコシステム
NVIDIA HGX Systems エコシステムは強力でパワフルなので、AI 環境とデータ センター環境の両方に最適です。
- パフォーマンス: 優れた計算能力を提供することで、AI モデルのトレーニングと推論に比類のないパフォーマンスを提供します。
- スケーラビリティ: これにより、現在のデータセンター インフラストラクチャにシームレスに統合しながら、人工知能操作と機械学習の拡張が可能になります。
- 効率性: 最適化された電力使用と高度な冷却メカニズムを組み合わせることで、高いエネルギー効率が保証されます。
これらの機能を組み合わせることで、NVIDIA HGX システムは、エンタープライズ レベルのデータ分析と人工知能研究を改善するための必須ツールとしての地位を確立します。
HGX プラットフォームの柔軟性と拡張性
HGX プラットフォームは、状況に応じてさまざまな方法で展開できるため、非常に柔軟で拡張性に優れています。
したがって、これらのプラットフォームはさまざまなコンピューティング要求に適応できます。
- 可変性: システムは、設定を変更することで調整でき、さまざまな種類の人工知能 (AI) タスクやデータ処理のニーズもサポートできます。
- 成長: このインフラストラクチャ テクノロジでは、計算が増えるにつれてパフォーマンス レベルが向上するため、拡張は無限になります。
- 統合: 既存のインフラストラクチャとの接続を確立することで、企業や組織で使用されている運用方法を大幅に変更することなく、簡単に拡張できます。
要約すると、HGX プラットフォームは、効率性を維持しながら、AI ラボとデータ センターの両方に適用できる強力なソリューションを提供します。
HGXシステムのコストに関する考慮事項
HGX システムのコストに関する考慮事項に答えるには、考慮すべき要素がいくつかあります。
- 初期投資: HGX システムは高度な機能と堅牢な設計を備えているため、購入時の価格が高くなる可能性があります。
- 営業経費: 継続的な実行コストには、電力消費、冷却の必要性、定期的なメンテナンスが含まれます。
- スケーラビリティコスト: スケーラブルであることは良いことですが、システムが大きくなるにつれて、ハードウェアのアップグレードやインフラストラクチャの変更に必要な追加費用が発生します。
- 投資収益率(ROI): コンピューティング効率の向上は、この種のシステムの使用によって実現される生産性の向上という観点から、総支出に対して測定する必要があります。
- ライフサイクルコスト: これには、将来のアップグレードや、必要に応じてシステムの廃止も含まれる可能性がある、システムの寿命全体にわたる所有に関連するすべてのコストを検討することが含まれま す。
結論として、コストに関する包括的な分析を行うことで、個人は HGX システムへの投資時に正しい選択を行うことができます。
参照ソース
よくある質問(FAQ)
Q: AI アプリケーションにおいて、NVIDIA DGX と NVIDIA HGX の主な違いは何ですか?
A: アーキテクチャとユースケースに関して言えば、NVIDIA DGX プラットフォームと NVIDIA HGX プラットフォームの違いは大きく異なります。DGX A100 などの DGX システムでは、すぐに導入できる AI とディープラーニングのワークフローがサポートされています。一方、NVIDIA HGX に代表される非常に強力な AI 機能を提供するために、データ センターに統合されたスケーラブルなソリューションを作成するためにモジュラー設計が採用されています。
Q: パフォーマンスの面で、DGX A100 と NVIDIA HGX A100 を比較するとどうですか?
A: 即時の AI ワークロードの最適化を目的として、100 基の NVIDIA A8 GPU を搭載した DGX A100 と呼ばれる自己完結型システムが開発されました。もう 100 つのオプションは、データ センター全体に拡張可能なモジュラー構成です。これにより、複数の GPU と高速相互接続の統合により、NVIDIA HGX AXNUMX プラットフォームと呼ばれる総合的なパフォーマンスが向上します。
Q: NVIDIA DGX H100 の目的は何ですか?
A: Nvidia Corporation が自社ブランド Nvidia dgx h100 で設計した高性能 AI およびディープラーニング アプリケーション シリーズの最新製品が登場しました。以前のモデルのすべての機能を継承していますが、新しい HPC テクノロジー nvidia h100 gpus 統合により、計算能力が向上し、効率も向上しています。
Q: これらのシステムにおける液体冷却について説明していただけますか?
A: 液冷式の NVIDIA HGXA デルタでは、この方法を使用して、負荷の高い計算タスク中に最適な温度を維持し、パフォーマンスとエネルギー節約を向上させます。
Q: NVIDIA DGX SuperPOD とは何ですか?
A: 複数の DGX システムを組み合わせることで、大規模な AI およびディープラーニング操作をより高速に実行できる広範なコンピューティング環境が作成されます。これは、GPU アクセラレーション コンピューティング用の NVIDIA NVSwitch テクノロジーを搭載した DGX Superpod と呼ばれます。
Q: DGX B200 と DGX GB200 の違いは何ですか?
A: これらは、さまざまな AI ワークロード向けに異なる構成とパフォーマンス機能を備えた DGX シリーズのモデルの一部です。アーキテクチャと GPU 構成の違いにより、パフォーマンスとアプリケーションが異なります。
Q: NVIDIA HGX H100 プラットフォームの利点は何ですか?
A: NVIDIA HGX H100 プラットフォームには最新の NVIDIA H100 GPU が搭載されており、AI アプリケーション向けの高性能コンピューティングが強化されています。拡張性、モジュール設計、NVLink や NVSwitch などの高度な相互接続により、データセンターのパフォーマンスが最大限に高まります。
Q: 「NVIDIA DGX と NVIDIA HGX」の比較は、AI インフラストラクチャにおける意思決定にどのような影響を与えますか?
A: NVIDIA DGX と NVIDIA HGX システムを比較することで、企業は要件に基づいて情報に基づいた選択を行うことができます。DGX システムはすぐに導入できる AI ソリューションに適していますが、HGX はデータ センター統合が必要な大規模な導入でより高い柔軟性とパワーを提供し、スケーラブルで高性能志向になります。
Q: DGX および HGX プラットフォームにおける NVIDIA Tesla GPU の役割は何ですか?
A: DGX プラットフォームと HGX プラットフォームの両方で、AI やディープラーニング ワークロード向けの NVIDIA Tesla P100 などの NVIDIA Tesla GPU によって強力なコンピューティング機能が提供されています。最新のシステムには、さらに高いレベルのパフォーマンスを提供する A100 と H100 などのより高度な GPU が搭載されています。
Q: AI 開発にとって「NVIDIA HGX と DGX の違い」が重要なのはなぜですか?
A: これら 2 つの相違点に関する知識は、人工知能開発中のインフラストラクチャの選択に影響するため、非常に重要です。すぐに使用できるソリューションは DGX に最適ですが、企業の研究や展開環境に合わせて広範囲にカスタマイズできるスケーラブルなモジュール構成は、理想的な HGX システムを構成する要素の一部です。
関連製品:
- NVIDIA MMA4Z00-NS400 互換 400G OSFP SR4 フラットトップ PAM4 850nm OM30 で 3m/OM50 で 4m MTP/MPO-12 マルチモード FEC 光トランシーバ モジュール $650.00
- NVIDIA MMA4Z00-NS-FLT 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $850.00
- NVIDIA MMA4Z00-NS 互換 800Gb/s ツインポート OSFP 2x400G SR8 PAM4 850nm 100m DOM デュアル MPO-12 MMF 光トランシーバー モジュール $750.00
- NVIDIA MMS4X00-NM 互換 800Gb/s ツインポート OSFP 2x400G PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $1100.00
- NVIDIA MMS4X00-NM-FLT 互換 800G ツインポート OSFP 2x400G フラットトップ PAM4 1310nm 500m DOM デュアル MTP/MPO-12 SMF 光トランシーバー モジュール $1200.00
- NVIDIA MMS4X00-NS400 互換 400G OSFP DR4 フラットトップ PAM4 1310nm MTP/MPO-12 500m SMF FEC 光トランシーバー モジュール $800.00
- Mellanox MMA1T00-HS 互換 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 光トランシーバー モジュール $200.00
- NVIDIA MFP7E10-N010 互換 10 メートル (33 フィート) 8 ファイバー 低挿入損失 メス - メス MPO トランク ケーブル 極性 B APC - APC LSZH マルチモード OM3 50/125 $47.00
- NVIDIA MCP7Y00-N003-FLT 互換 3m (10 フィート) 800G ツインポート OSFP ~ 2x400G フラットトップ OSFP InfiniBand NDR ブレイクアウト DAC $275.00
- NVIDIA MCP7Y70-H002 互換 2m (7 フィート) 400G ツインポート 2x200G OSFP から 4x100G QSFP56 パッシブ ブレークアウト ダイレクト アタッチ銅線ケーブル $155.00
- NVIDIA MCA4J80-N003-FTF 互換 3m (10 フィート) 800G ツインポート 2x400G OSFP から 2x400G OSFP InfiniBand NDR アクティブ銅線ケーブル、一方の端はフラット トップ、もう一方の端はフィン付きトップ $600.00
- NVIDIA MCP7Y10-N002 互換性のある 2m (7 フィート) 800G InfiniBand NDR ツインポート OSFP から 2x400G QSFP112 ブレイクアウト DAC $200.00