Nvidia AI チップ: A100 A800 H100 H800 B200

NVIDIAは今年200月に、世界最強のAIチップとして知られるBlackwell B100をリリースした。これまでのA800、A100、H800、HXNUMXとどう違うのだろうか?

ブラックウェル B200

NVIDIA GPU アーキテクチャの進化

まず、NVIDIA AI アクセラレータ カードのコンピューティング パワー開発の歴史を見てみましょう。

AIアクセラレータカードの第一世代はVoltaと呼ばれていますこれは、AI コンピューティング専用に設計された NVIDIA 初の Tensor Core アーキテクチャです。

第2世代のテンソルコンピューティングアーキテクチャはチューリングと呼ばれています、これはグラフィック カード T4 を表します。

第3世代テンソルコンピューティングアーキテクチャAmpere ついに、私たちがよく知っている A100 シリーズのグラフィック カードにも登場しました。

チッププロセスのアップグレードのサポートにより、シングルカードのSMは108倍の100になりました。 SMのコア数はV256と同じですが、コンピューティングユニット回路のアップグレードにより、コアは8サイクルあたり8回の浮動小数点乗算と累算を完了でき、これは古いアーキテクチャの16倍です。 当時のディープラーニングのニーズをよりよく満たすために、8ビット浮動小数点(FP1.41)コンピューティングモードが追加されました。 100つの5ビット浮動小数点コアは100つの108ビット浮動小数点コアとして計算でき、コンピューティングパワーが8倍になります。 メイン周波数はわずかに低下して256GHzになりました。 そのため、最終的にA1.41グラフィックスカードのコンピューティングパワーはV2のほぼ624倍、つまり8*XNUMX*XNUMX*XNUMXGHz*XNUMX =XNUMX TFLOPS(FPXNUMX)に達しました。

アンペアアーキテクチャ

第4世代アーキテクチャホッパー NVIDIA が昨年リリースしたばかりの H100 シリーズのグラフィック カードで、OpenAI が大規模言語モデルのトレーニングに採用したが、計算能力の問題で使用禁止となった。

このグラフィックスカードのSM数(132)は前世代と比べて大幅に増加していませんが、新しいTensor Coreアーキテクチャと非同期メモリ設計により、単一のSMコアが16サイクルで完了できるFP512乗算と累算の回数は1.83回に倍増しました。メイン周波数は1978GHzにわずかに増加し、シングルカードの計算能力はついに驚異の8テラFLOPS(FP1.97)に達し、初めてPFLOPS(XNUMXペタFLOPS)の領域に参入しました。

ホッパーアーキテクチャ

どのような進歩がありましたか 第5世代のアーキテクチャブラックウェル この計算能力のラダーで何が行われたのか?公開データによると、新しいFP4データユニットが採用されれば、GB200は推論タスクで20ペタFLOPSの計算能力を達成できる。FP8に戻れば、 また、驚異的な 10 PFLOPS を実現し、これは H5 の約 100 倍の改善となります。

公開データによると、Blackwell プロセッサのメイン周波数は 2.1GHz です。アーキテクチャが大幅に更新されないと仮定すると、Blackwell には 600 個の SM が搭載され、H100 のほぼ 100 倍になります。Blackwell には XNUMX つのダイがあるため、シングルダイ グラフィック カードの SM の数は HXNUMX の XNUMX 倍になります。

アーキテクチャの世代がアップグレードするたびに、単一の GPU の計算能力が数倍に増加したと結論付けることができます。 ここでは、Volta アーキテクチャから現在までのコンピューティング能力の進歩チャートを参考までに示します。

コンピューティングパワーの進捗チャート

A100 対 A800、H100 対 H800

A800 があるのに、なぜ A100 が必要なのでしょうか? まずは背景についてお話ししましょう。

2022年XNUMX月、米国は中国本土への高性能コンピューティングチップの輸出制限を含む、中国への半導体輸出を制限する新たな規制を導入した。 パフォーマンス指標 NVIDIAのA100 チップが制限基準として使用され、次の両方の条件を満たす高性能コンピューティングチップが規制されます。

(1)チップのI/O帯域幅伝送速度は1Gバイト/秒以上である。

(2)「デジタル処理装置、生演算装置」の各演算のビット長にTOPSで算出した演算能力を乗じた合計が2TOPS以上であること。

この条件により、NVIDIA A100/H100シリーズおよびAMD MI200/300シリーズのAIチップを中国に輸出することは不可能になります。

Nvidia と AMD GPU の比較

NVIDIAは、米国の規制に準拠しながら中国の顧客のニーズを満たすために、A800の代替品であるA100を発売しました。公式パラメータから判断すると、A800は主にNVLinkの伝送速度をA600の100GB/秒から400GB/秒に下げており、その他のパラメータは基本的にA100と同じです。

NVIDIAは2023年に、100億個のトランジスタと4個のコアを備えた80nmプロセスに基づく新世代のH18,432 GPUをリリースしました。同様に、NVIDIAは中国市場向けにH800の特別バージョンも発売しました。

チップの比較

実際、A800では相互接続帯域幅、つまりN次元チェーンとリンク部分がA600の100G/sから400G/sに調整されています。ただし、倍精度、単精度、半精度など、その他の面ではAIコンピューティングパワーに変化はありません。

相対的に言えば、H800は大きな調整が行われました。リンクの調整だけでなく、8つのNVlinkを維持し、 400G 双方向相互接続帯域幅が削減されるだけでなく、倍精度計算もゼロに削減されました。これは、FP64 の倍精度計算能力が直接 XNUMX に削減され、ほとんど使用できなくなるため、HPC 分野にとって重要です。

次に、今回の調整によって大きな影響を受ける事業について見てみましょう。

大規模モデルの戦場:A800が調整された後、大規模モデルのトレーニングの効率が低下しました。A800 SXMMは主にGPUカード間のデータ転送効率を低下させ、帯域幅は33%減少しました。GPT-3を例にとると、その規模は175億に達し、複合トレーニングには複数のGPUが必要です。帯域幅が不十分な場合、パフォーマンスは約40%低下します。A800とH800のコスト効率を考えると、中国のユーザーは依然としてA800を好みます。調整されたA800とH800はトレーニング効率が低下し、カード間でトレーニングプロセス中に一部のデータを交換する必要があるため、転送速度の低下は効率の低下につながります。

HPC: A800とA100は同じデュアル精度演算能力を持っているため、高性能科学計算の分野では影響を受けません。しかし、厄介なのは、H800はデュアル精度演算能力を1TFLOPSに直接低下させるため、使用できないことです。これはスーパーコンピューティング分野に大きな影響を与えます。

そのため、影響は明らかです。AIGCとHPCの分野では、一部の中国企業が外国企業に遅れをとる可能性があります。これは予見可能なことなので、場合によっては、一定のパフォーマンスを達成するためのコンピューティングパワーが必要な場合は、投資額が高くなる可能性があります。また、海外からダミー会社を借りて支店を設立し、大規模モデルのトレーニングのタスクを海外に配置することしかできません。トレーニングの結果は中国でのみ使用する必要があります。ただし、これは一時的な解決策にすぎず、特にデータが国外に流出するリスクに直面している場合はなおさらです。

製品概要

周知のとおり、米国はGPUを含む中国製チップに対してますます厳しい規制を課しています。2022年には、米国はA100、H100などの高性能GPUチップを禁止し、2023年にはA800、H800、L40、L40S、さらにはデスクトップグラフィックカードRTX 4090を禁止しました。

そのため、中国のテクノロジー企業も、将来的にNvidiaチップの使用を減らす準備として産業戦略を積極的に調整し、新しいチップに適応するために技術を絶えず調整する膨大なコストを回避しています。アリババやテンセントなどのクラウドベンダーは、一部の高度な半導体注文をファーウェイなどの地元企業に移し、自社開発のチップへの依存を高めています。百度やバイトダンスなどの企業も同様の措置を講じています。明らかに、中国企業は「3つのアプローチ」を通じて前進の道を模索することを選択しました。 NVIDIA + 自社開発 + 国産チップ "

コメント

上へスクロール