엔비디아 AI 칩: A100 A800 H100 H800 B200

엔비디아는 올해 200월 세계에서 가장 강력한 AI 칩으로 알려진 블랙웰 B100을 출시했다. 기존 A800, A100, H800, HXNUMX과 어떻게 다른가요?

블랙웰 B200

NVIDIA GPU 아키텍처의 진화

먼저 NVIDIA AI 가속기 카드의 컴퓨팅 성능 개발 내역을 검토해 보겠습니다.

1세대 AI 가속기 카드는 Volta라고 불립니다.는 AI 컴퓨팅을 위해 특별히 설계된 NVIDIA 최초의 텐서 코어 아키텍처입니다.

2세대 텐서 컴퓨팅 아키텍처를 Turing이라고 합니다., 이는 그래픽 카드 T4를 나타냅니다.

3세대 텐서 컴퓨팅 아키텍처 Ampere 드디어 우리에게 더 친숙한 A100 시리즈 그래픽카드가 등장했습니다.

칩 프로세스 업그레이드 지원으로 단일 카드의 SM은 108개로 두 배 늘어났습니다. SM의 코어 수는 V100과 동일하지만 컴퓨팅 장치 회로의 업그레이드를 통해 코어는 256개의 플로팅을 완료할 수 있습니다. -각 주기마다 포인트 곱셈 및 누적이 이루어지며, 이는 기존 아키텍처의 두 배입니다. 당시 딥러닝 요구 사항을 더 잘 충족하기 위해 8비트 부동 소수점(FP8) 컴퓨팅 모드가 추가되었습니다. 16비트 부동 소수점 코어 8개는 1.41비트 부동 소수점 코어 100개로 계산할 수 있어 컴퓨팅 성능이 두 배로 늘어납니다. 주 주파수는 5GHz로 약간 떨어졌습니다. 따라서 결국 A100 그래픽 카드의 컴퓨팅 성능은 V108의 8배에 가까운 256*1.41*2*624GHz*8 =XNUMX TFLOPS(FPXNUMX)에 도달했습니다.

암페어 아키텍처

4세대 아키텍처 호퍼 NVIDIA가 작년에 출시한 H100 시리즈 그래픽 카드로 OpenAI에서 대규모 언어 모델 훈련을 위해 채택했으며 컴퓨팅 성능 문제로 인해 사용이 금지되었습니다.

이 그래픽 카드의 SM 개수(132개)는 이전 세대에 비해 크게 증가하지 않았지만, 새로운 Tensor Core 아키텍처와 비동기식 메모리 설계로 인해 단일 SM 코어로 완료할 수 있는 FP16 곱셈 및 누산 개수가 늘어났습니다. 한 주기에 512번으로 두 배 증가했습니다. 메인 주파수는 1.83GHz로 소폭 높아졌고, 단일 카드의 컴퓨팅 성능은 마침내 놀라운 1978 Tera FLOPS(FP8)에 도달했는데, 이는 최초로 PFLOPS(1.97 Peta FLOPS) 분야에 진입한 것입니다.

호퍼 아키텍처

어느 정도 진전이 있었나 5세대 아키텍처 Blackwell 이 컴퓨팅 파워 사다리에서 만들어졌나요? 공개 데이터에 따르면, 새로운 FP4 데이터 유닛이 채택되면 GB200은 추론 작업에서 20Peta FLOPS 컴퓨팅 성능을 달성할 수 있을 것입니다. FP8로 다시 복원하면 또한 H10에 비해 약 5배 향상된 놀라운 100PFLOPS를 가져야 합니다.

공개 데이터에 따르면 Blackwell 프로세서의 주요 주파수는 2.1GHz입니다. 아키텍처가 크게 업데이트되지 않는다고 가정하면 Blackwell은 H600의 거의 100배인 100개의 SM을 보유하게 됩니다. Blackwell에는 다이가 두 개 있으므로 단일 다이 그래픽 카드의 SM 수가 HXNUMX의 두 배입니다.

아키텍처가 업그레이드될 때마다 단일 GPU의 컴퓨팅 성능이 몇 배로 증가했다는 결론을 내릴 수 있습니다. 여기에는 참조용으로 Volta 아키텍처부터 현재까지의 컴퓨팅 성능 진행 차트가 나열되어 있습니다.

컴퓨팅 파워 진행 차트

A100 대 A800, H100 대 H800

A800이 있는데 왜 A100이 필요한가요? 먼저 배경에 대해 이야기해보자.

2022년 XNUMX월 미국은 중국 본토에 대한 고성능 컴퓨팅 칩 수출 제한을 포함해 중국에 대한 반도체 수출을 제한하는 새로운 규정을 도입했습니다. NVIDIA의 A100 칩의 성능 지표는 제한 표준으로 사용됩니다. 즉, 다음 조건을 모두 충족하는 고성능 컴퓨팅 칩이 규제됩니다.

(1) 칩의 I/O 대역폭 전송 속도는 600G byte/s 이상입니다.

(2) “디지털 처리 장치, 원시 컴퓨팅 장치”의 각 작업의 비트 길이에 TOPS로 계산된 컴퓨팅 파워를 곱한 값의 합은 4800TOPS 이상입니다.

이러한 조건으로 인해 NVIDIA A100/H100 시리즈 및 AMD MI200/300 시리즈 AI 칩을 중국에 수출하는 것이 불가능합니다.

Nvidia와 AMD GPU 비교

미국 규제를 준수하는 동시에 중국 고객의 요구를 충족하기 위해 NVIDIA는 A800을 대체하는 A100을 출시했습니다. 공식 매개변수로 판단하면 A800은 주로 NVLink의 전송 속도를 A600의 100GB/s에서 400GB/s로 낮추고 다른 매개변수는 기본적으로 A100과 동일합니다.

2023년 NVIDIA는 100억 개의 트랜지스터와 4개의 코어를 갖춘 80nm 프로세스 기반의 차세대 H18,432 GPU를 출시했습니다. 마찬가지로 NVIDIA는 중국 시장을 위한 특별 버전의 H800도 출시했습니다.

칩 비교

실제로 A800은 상호 연결 대역폭, 즉 N차원 체인과 링크 부분을 A600의 100G/s에서 400G/s로 낮추었습니다. 그러나 배정밀도, 단정밀도, 준정밀도 등 다른 측면에서는 AI 컴퓨팅 성능에 변화가 없습니다.

상대적으로 H800은 주요 조정을 했습니다. 링크 측면에서 조정을 했을 뿐만 아니라 8개의 NV링크를 유지하고 400G 양방향 상호 연결 대역폭을 제공하지만, 이중 정밀도 컴퓨팅도 64으로 줄였습니다. 이는 HPC 분야에서 매우 중요한데, FPXNUMX의 이중 정밀도 컴퓨팅 파워가 XNUMX로 직접 줄어들기 때문에 거의 사용할 수 없기 때문입니다.

다음으로 이번 조정으로 인해 어떤 기업이 큰 영향을 받게 될지 살펴보겠습니다.

대형 모델 전장: A800 조정 후 대형 모델 훈련의 효율성이 감소했습니다. A800 SXMM은 주로 GPU 카드 간 데이터 전송 효율을 감소시켰으며 대역폭도 33% 감소했습니다. GPT-3를 예로 들면 그 규모는 175억 개에 달하며 결합 훈련을 위해 여러 개의 GPU가 필요합니다. 대역폭이 부족하면 성능이 약 40% 정도 떨어집니다. A 800과 H 800의 비용 효율성을 고려하면 중국 사용자들은 여전히 ​​A 800을 선호합니다. 조정된 A800과 H800은 훈련 효율성이 감소하고 카드 간 훈련 과정에서 일부 데이터를 교환해야 하기 때문에 전송 속도가 감소합니다. 효율성이 감소합니다.

HPC: A800과 A100은 동일한 이중 정밀도 컴퓨팅 성능을 갖추고 있으므로 고성능 과학 컴퓨팅 분야에 영향을 미치지 않습니다. 하지만 짜증나는 점은 H800이 이중정밀도 컴퓨팅 성능을 직접적으로 1 TFLOPS로 줄여서 사용할 수 없다는 점이다. 이는 슈퍼컴퓨팅 분야에 큰 영향을 미칩니다.

그러므로 그 영향은 명백합니다. AIGC, HPC 분야에서는 일부 중국 기업이 외국 기업에 뒤처지는 경우가 있다. 이는 예측 가능하므로 경우에 따라 특정 성능을 달성하기 위해 컴퓨팅 성능을 원하는 경우 투자가 더 높아질 수 있습니다. 또한, 해외에서 페이퍼 컴퍼니를 빌려 지사를 설립해 해외에 대형 모델 교육 업무를 맡길 수 밖에 없습니다. 우리는 중국에서의 훈련 결과만 활용하면 됩니다. 그러나 이는 특히 데이터가 국가 밖으로 유출될 위험에 직면한 경우 일시적인 해결책일 뿐입니다.

요약

우리 모두 알고 있듯이 미국은 GPU를 포함한 중국 칩에 대해 점점 더 엄격한 제한을 가하고 있습니다. 미국은 2022년 A100, H100 등 고성능 GPU 칩을 금지했고, 2023년에는 A800, H800, L40, L40S는 물론 데스크톱 그래픽 카드인 RTX 4090까지 금지했다.

따라서 중국 기술 기업들도 향후 엔비디아 칩 사용 감소에 대비해 산업 전략을 적극적으로 조정하고 있으며, 이를 통해 새로운 칩에 적응하기 위해 끊임없이 기술을 조정하는 데 드는 막대한 비용을 피하고 있습니다. Alibaba 및 Tencent와 같은 클라우드 공급업체는 일부 고급 반도체 주문을 Huawei와 같은 현지 기업으로 옮기고 자체 개발 칩에 더 많이 의존했습니다. Baidu 및 ByteDance와 같은 회사도 비슷한 조치를 취했습니다. 분명히 중국 기업은 세 가지 접근 방식을 통해 앞으로 나아갈 길을 모색하기로 결정했습니다. NVIDIA + 자체 개발 + 국산 칩 ".

코멘트 남김

위쪽으로 스크롤