NVIDIA는 AI 슈퍼컴퓨터 SuperPod를 어떻게 구축하나요?

대규모 AI 모델 시대에 단일 GPU로 AI 모델을 훈련하는 것은 오래 전부터 역사가 되었습니다. 수백 개 또는 수천 개의 GPU를 상호 연결하여 하나의 GPU처럼 보이는 슈퍼컴퓨팅 시스템을 형성하는 방법이 업계의 뜨거운 이슈가 되었습니다!

NVIDIA DGX SuperPOD는 차세대 데이터 센터 인공 지능(AI) 아키텍처입니다. AI 모델 훈련, 추론, 고성능 컴퓨팅(HPC) 및 하이브리드 애플리케이션에서 고급 컴퓨팅 과제에 필요한 수준의 컴퓨팅 성능을 제공하여 예측 성능을 개선하고 솔루션 시간을 단축하도록 설계되었습니다. NVIDIA의 100세대 제품인 H200→GH200→GBXNUMX의 GPU 상호 연결 아키텍처 솔루션에 대해 알아보겠습니다.

H256 기반 100개 GPU를 탑재한 SuperPod 구축

DGX A100의 경우, 각 노드의 200개 GPU는 NVLink와 NVSwitch를 통해 상호 연결되며, 서로 다른 서버는 XNUMXGbps IB HDR 네트워크를 사용하여 직접 상호 연결됩니다(참고: 서버 간 네트워크는 IB 네트워크 또는 RoCE 네트워크를 사용할 수 있음).

DGX H100의 경우 NVIDIA는 서버 내부에서 서버 간 NVLink를 확장하고 NVLink-network Switch를 추가합니다. NVSwitch는 서버 내부에서 스위칭을 담당하고 NVLink-network Switch는 서버 간 스위칭을 담당합니다. 256개의 H100 GPU로 구성된 SuperPod(즉, 슈퍼컴퓨팅 시스템)는 NVSwitch와 NVLink-network Switch를 기반으로 구축할 수 있습니다. 256개의 GPU 카드의 Reduce 대역폭은 여전히 ​​450GB/s에 도달할 수 있으며, 이는 단일 서버에서 8개의 GPU 카드의 Reduce 대역폭과 정확히 동일합니다.

그러나 DGX H100의 SuperPod에도 몇 가지 문제가 있습니다. DGX H72 노드 전체에 걸쳐 NVLink 연결이 100개에 불과하고 SuperPod 시스템은 비수렴 네트워크가 아닙니다. 아래 그림과 같이 DGX H100 시스템에서 72개의 NVSwitch는 NVLink 네트워크 스위치를 통해 다른 DGX H100 시스템에 연결하기 위해 72개의 NVLink 연결을 예약합니다. 3.6개의 NVLink 연결의 총 양방향 대역폭은 8TB/s인 반면 100개의 H7.2의 총 양방향 대역폭은 XNUMXTB/s입니다. 따라서 SuperPod 시스템의 NVSwitch에서 수렴이 발생합니다.

H256 기반 100개 GPU를 탑재한 SuperPod

 H256 기반 100개 GPU를 탑재한 SuperPod

GH256 및 GH200 NVL200 기반 32 GPU SuperPod 구축

2023년, NVIDIA는 생성 AI 엔진 DGX GH200이 양산에 들어갔다고 발표했습니다. GH200은 H200 GPU(H200과 H100의 주요 차이점은 메모리 크기와 대역폭 성능에 있음)와 Grace CPU의 조합입니다. Grace CPU 200개는 H4.0 GPU 200개에 해당합니다. GPU 간 NVLink4.0 연결 외에도 GHXNUMX은 GPU와 CPU 간 NVLinkXNUMX 연결도 사용합니다.

GH200은 NVLink 900의 4.0GB/s 초대형 네트워크 대역폭 기능을 통해 컴퓨팅 성능을 개선합니다. 서버 내부에서는 구리선 솔루션을 사용할 수 있지만 서버 간에는 광섬유 연결을 사용할 수 있습니다. 256개의 GH200 칩으로 구성된 단일 클러스터의 경우 컴퓨팅 측의 GH200 하나는 800개의 800Gbps(각 100Gbps는 4.0GB/s, 200개의 NVLink 100 링크에 해당) 광 트랜시버에 해당합니다. GH200 SuperPod와 DGX H200 SuperPod의 차이점은 GH8이 단일 노드 내부와 노드 간 상호 연결을 위해 NVLink 네트워크 스위치를 사용한다는 것입니다. DGX GH200은 3개의 GH2과 128개의 32차 NVLink 네트워크 스위치(각 NVSwitch 트레이에는 36개의 NVSwitch 칩이 포함되어 있고 256개의 포트가 있음)로 구성된 200단계 Fat-tree 구조를 채택하여 단일 서버를 형성합니다. 36개의 단일 서버는 XNUMX개의 XNUMX차 NVLink 네트워크 스위치를 통해 완전히 상호 연결되어 XNUMX개의 GHXNUMX으로 구성된 SuperPod를 형성합니다(수렴을 보장하기 위해 XNUMX개의 XNUMX차 NVLink 네트워크 스위치가 있습니다).

GH200 NVL32는 랙 레벨 클러스터입니다. 단일 GH200 NVL32에는 32개의 GH200 GPU와 9개의 NVSwitch 트레이(18개의 NVSwitch3.0 칩)가 있습니다. 200개의 GPU가 있는 GH32 NVL256 슈퍼 노드가 형성되면 36차 서버 간에 XNUMX개의 NVLink 네트워크 스위치가 필요합니다.

GB576 NVL200 기반 72 GPU를 탑재한 SuperPod 구축

GH200과 달리 GB200은 Grace CPU 1개와 Blackwell GPU 2개로 구성됩니다(참고: 단일 GPU의 컴퓨팅 파워는 B200과 완전히 동일하지 않습니다).GB200 컴퓨트 트레이는 NVIDIA MGX를 기반으로 설계되었습니다.컴퓨트 트레이 하나에는 GB2 200개, 즉 Grace CPU 2개와 GPU 4개가 들어 있습니다.GB200 NVL72 노드에는 GB18 컴퓨트 트레이 200개, 즉 Grace CPU 36개, GPU 72개, NVLink 네트워크 스위치 트레이 9개가 들어 있습니다(각 Blackwell GPU에는 NVLink가 18개 있고, 각 4세대 NVLink 네트워크 스위치 트레이에는 NVLink 포트 144개가 들어 있으므로 완전한 상호 연결을 달성하려면 9개(72*18/144=9)의 NVLink 네트워크 스위치 트레이가 필요합니다).

NVIDIA의 공식 홍보에 따르면 200개의 GB72 NVL576가 SuperPod를 형성하여 9개의 GPU로 구성된 슈퍼노드를 형성합니다. 그러나 분석을 통해 GB200 NVL72 캐비닛의 72개 NVLink 네트워크 스위치 트레이가 모두 200개의 GB576을 연결하는 데 사용된다는 것을 알 수 있습니다. 더 큰 규모의 576계층 스위칭 클러스터를 형성하기 위한 확장을 위한 추가 NVLink 인터페이스는 없습니다. NVIDIA의 공식 사진에 따르면 18개 GPU의 SuperPod는 대부분 Scale-Up NVLink 네트워크가 아닌 Scale-Out RDMA 네트워크를 통해 상호 연결됩니다. NVLink 상호 연결을 통해 72개 GPU의 SuperPod를 지원해야 하는 경우 200개의 GBXNUMX마다 XNUMX개의 NVSwitch를 구성해야 하며 이는 단일 캐비닛에 맞지 않습니다.

또한 NVIDIA는 NVL72에 싱글 캐비닛 버전과 듀얼 캐비닛 버전이 있으며, 듀얼 캐비닛의 각 컴퓨트 트레이에는 GB200 서브시스템이 하나만 있다고 공식적으로 밝혔습니다. 이 경우 듀얼 캐비닛 버전을 사용하여 NVLink 상호 연결을 통해 576개 GPU의 SuperPod를 지원할 수 있으며, 이 듀얼 캐비닛 버전의 각 듀얼 캐비닛에는 72개의 GB200과 18개의 NVLink 네트워크 스위치 트레이가 있어 XNUMX계층 클러스터의 배포 요구 사항을 충족할 수 있습니다. 다음 그림과 같습니다.

GB576 기반 200개 GPU를 탑재한 SuperPod

GB576 기반 200개 GPU를 탑재한 SuperPod

이는 이전 세대의 256 H200 완전 상호 연결 구조와 유사하지만, 576차 및 576차 레벨의 장치 수가 다르기 때문에 18단계의 NVLink 네트워크 스위치 상호 연결이 필요합니다. 144차 레벨의 포트 절반은 2개의 Blackwell GPU를 연결하므로 144*72/(18/144) =72개의 NVLink 네트워크 스위치가 필요하고 각 NVL144에는 72개의 NVLink 네트워크 스위치 트레이가 있습니다. 모든 XNUMX차 레벨 포트는 XNUMX차 레벨 NVLink 네트워크 스위치 포트에 연결되므로 XNUMX*XNUMX/XNUMX=XNUMX개의 NVSwitch가 필요합니다.

코멘트 남김

위쪽으로 스크롤