배경
OpenAI가 ChatGPT를 도입한 이후 LLM(대형 언어 모델)이 상당한 관심을 받고 빠르게 발전했습니다. 많은 기업들이 이러한 추세에 발맞추기 위해 LLM 사전 교육에 투자하고 있습니다. 그러나 100B 규모의 LLM을 교육하려면 일반적으로 수천 개의 GPU가 장착된 클러스터와 같은 상당한 컴퓨팅 리소스가 필요합니다. 예를 들어 Falcon 시리즈 모델은 180 A4096 GPU 클러스터에서 100B 모델을 교육하는데, 70T 토큰의 경우 거의 3.5일이 걸립니다. 데이터 규모가 계속 증가함에 따라 컴퓨팅 성능에 대한 수요도 증가합니다. 예를 들어 Meta는 두 개의 3K H15 클러스터에서 24T 토큰을 사용하여 LLaMA100 시리즈 모델을 교육했습니다.
이 기사에서는 대규모 GPU 클러스터 구축과 관련된 구성 요소와 구성을 자세히 살펴봅니다. 다양한 GPU 유형, 서버 구성, 네트워크 장치(예: 네트워크 카드, 스위치 및 광 모듈) 및 데이터 센터 네트워크 토폴로지(예: 3계층, Fat-Tree)를 다룹니다. 특히 NVIDIA의 DGX A100 SuperPod 및 DGX H100 SuperPod 구성과 다중 GPU 클러스터에 사용되는 일반적인 토폴로지를 살펴보겠습니다.
초대형 GPU 클러스터를 구축하는 것은 매우 복잡한 노력이며 이 기사에서는 표면적인 내용만 다룬다는 점을 명심하십시오. 실제 클러스터 배포에서는 스토리지 네트워크, 관리 네트워크 및 기타 측면이 중요하지만 여기서는 자세한 내용을 다루지 않습니다. 또한 네트워크 토폴로지 디자인은 다양한 애플리케이션 시나리오에 따라 다릅니다. 우리는 대규모 AI GPU 클러스터에서 일반적으로 사용되는 트리 기반 토폴로지에 중점을 둘 것입니다. 마지막으로 GPU 클러스터를 유지 관리하고 운영하는 데 필수적인 전원 시스템, 냉각 시스템과 같은 중요한 구성 요소는 다루지 않습니다.
관련 구성요소
GPU
아래 차트는 Ampere, Hopper 및 최신 Blackwell 시리즈 GPU를 보여줍니다. 메모리 용량, 계산 능력 및 NVLink 기능이 점차 향상되고 있습니다.
A100 -> H100: FP16 고밀도 컴퓨팅은 3배 이상 증가하는 반면 전력 소비는 400W에서 700W로만 증가합니다.
H200 -> B200: FP16 고밀도 컴퓨팅이 두 배로 증가하고 전력 소비가 700W에서 1000W로 증가합니다.
B200 FP16 고밀도 컴퓨팅은 A7의 약 100배이며 전력 소비는 2.5배 더 높습니다.
Blackwell GPU는 FP4 정밀도를 지원하여 FP8의 두 배의 컴퓨팅 성능을 제공합니다. FP4와 Hopper의 FP8 아키텍처를 비교한 결과 훨씬 더 큰 가속이 나타났습니다.
GB200은 전체 B200 칩을 사용하는 반면 B100 및 B200은 해당 컷다운 버전입니다.

HGX 서버
HGX는 일반적으로 8개 또는 4개의 GPU를 포함하고 일반적으로 Intel 또는 AMD CPU와 쌍을 이루고 NVLink 및 NVSwitch를 사용하여 전체 상호 연결을 달성하는 NVIDIA의 고성능 서버입니다(NVL을 제외하면 일반적으로 8개의 GPU가 NVLink 전체 상호 연결의 상한입니다). 그리고 슈퍼팟).
HGX A100 -> HGX H100, HGX H200에서 FP16의 고집적 컴퓨팅 성능은 3.3배 증가한 반면, 전력 소모량은 2배 미만입니다.
HGX H100과 HGX H200 -> HGX B100과 HGX B200에서 FP16의 고집적 컴퓨팅 성능은 약 2배 증가한 반면, 전력 소모량은 많아야 50%를 넘지 않을 정도로 비슷합니다.
다음 사항에 유의해야합니다.
HGX B100 및 HGX B200의 네트워크는 기본적으로 업그레이드되지 않았으며 IB 네트워크 카드는 여전히 8x400Gb/s입니다.

NVIDIA DGX와 HGX는 딥 러닝, 인공 지능, 대규모 컴퓨팅 요구 사항을 위해 설계된 두 가지 고성능 솔루션입니다. 그러나 디자인과 대상 응용 프로그램이 다릅니다.
DGX:
일반 소비자를 대상으로 합니다.
플러그 앤 플레이 고성능 솔루션을 제공합니다.
NVIDIA의 딥 러닝 소프트웨어 스택, 드라이버 및 도구를 포함한 포괄적인 소프트웨어 지원이 함께 제공됩니다.
일반적으로 사전 구축된 폐쇄형 시스템입니다.
HGX:
클라우드 서비스 제공업체와 대규모 데이터 센터 운영자를 대상으로 합니다.
맞춤형 고성능 솔루션 구축에 적합합니다.
고객이 요구 사항에 맞게 하드웨어를 사용자 정의할 수 있도록 모듈식 설계를 제공합니다.
일반적으로 하드웨어 플랫폼 또는 참조 아키텍처로 제공됩니다.
네트워킹 관련:
네트워킹
네트워크 카드
Mellanox의 고속 네트워크 카드인 ConnectX-5/6/7/8에 중점을 둘 것입니다.
이 카드는 이더넷과 IB(InfiniBand)를 모두 지원합니다.
ConnectX-5는 2016년에 출시되었고, 이어 6년에 ConnectX-2020, 7년에 ConnectX-2022, 그리고 8년 GTC 컨퍼런스에서 Jensen Huang이 소개한 ConnectX-2024이 출시되었습니다(자세한 사양은 아직 제공되지 않음).
각 세대는 총 대역폭을 대략 두 배로 늘리며, 다음 세대는 1.6Tbps에 도달할 것으로 추정됩니다.

스위치
NVIDIA는 이더넷과 인피니밴드 (IB). 이러한 스위치에는 종종 최대 대역폭에 포트 수를 곱하여 계산된 총 처리량(양방향 스위칭 용량)에 해당하는 수십 또는 수백 개의 포트가 있으며 "2"는 양방향 통신을 나타냅니다.

Spectrum-X 시리즈 이더넷 스위치
Quantum-X 시리즈 InfiniBand 스위치:
이 스위치는 400Gb/s의 처리량을 제공합니다.
이들은 고성능 컴퓨팅(HPC), AI, 하이퍼스케일 클라우드 인프라 분야에서 탁월합니다.
Quantum-X 스위치는 복잡성과 비용을 최소화하면서 강력한 성능을 제공합니다.
Mellanox 스위치 외에도 많은 데이터 센터에서는 이제 기존 옵션과 함께 모듈식 스위치(예: Arista 7800 시리즈)를 채택하고 있습니다. 예를 들어, Meta는 최근 Arista 24 스위치를 활용하여 100K H7800 GPU가 포함된 GPU 클러스터 7800개를 구축했습니다. 7816 시리즈에는 3LR7816 및 3R576과 같은 모듈형 스위치가 포함되어 있으며 400G 고속 대역폭의 XNUMX개 포트를 제공할 수 있습니다. 이 스위치는 대기 시간이 짧은 데이터 전송 및 처리를 위해 효율적인 내부 버스 또는 스위치 백플레인을 사용합니다.

광학 모듈
광 모듈은 광섬유 통신에서 중요한 역할을 합니다. 전기 신호를 광 신호로 변환한 다음 광섬유를 통해 전송합니다. 이러한 모듈은 더 높은 전송 속도, 더 긴 거리, 전자기 간섭에 대한 더 큰 내성을 제공합니다. 일반적으로 광 모듈은 송신기(전기 신호를 광 신호로 변환)와 수신기(광 신호를 전기 신호로 변환)로 구성됩니다.

일반적으로 사용되는 두 가지 광 모듈 인터페이스 유형은 다음과 같습니다.
SFP(Small Form-factor Pluggable): SFP 모듈은 일반적으로 단일 전송 채널(하나의 광섬유 또는 한 쌍의 광섬유 사용)로 작동합니다.
QSFP(Quad Small Form-factor Pluggable): QSFP 모듈은 다중 전송 채널을 지원합니다. QSFP-DD(Double Density)는 8개 채널을 사용하여 포트 밀도를 더욱 향상시킵니다.
최근에는 400Gbps 및 800Gbps와 같은 고대역폭 시나리오를 위해 특별히 설계된 OSFP(Octal Small Form-factor Pluggable) 패키징이 등장했습니다. OSFP 모듈에는 8개의 채널이 있으며 QSFP-DD보다 약간 더 큽니다. SFP 및 QSFP 인터페이스와 호환되지 않으며 변환기가 필요합니다. 아래 다이어그램은 400Gbps OSFP 모듈 다양한 전송 거리(100m, 500m, 2km, 10km).
다양한 거리의 경우 다음 모듈 선택을 고려하십시오.
코어와 스파인 레이어 사이: 10km 400G LR4 또는 800G 2xLR4를 사용합니다.
척추와 리프 레이어 사이: 2km 400G FR4를 선택하세요.
리프와 ToR 사이(랙 상단): 500m 400G DR 모듈을 선택합니다.

데이터 센터 네트워크(DCN) 토폴로지
기본 개념
North-South 트래픽: 데이터 센터 외부에서 들어오는 트래픽을 의미합니다. 여기에는 인터넷 관련 트래픽뿐만 아니라 서로 다른 데이터 센터 간의 트래픽도 포함됩니다.
동-서 트래픽: 동일한 데이터 센터 내 트래픽을 의미합니다. 예를 들어, 데이터 센터 내의 서로 다른 서버 간의 통신을 포함합니다. 최신 데이터 센터에서 이러한 유형의 트래픽은 일반적으로 전체의 70~80%를 차지하는 상당한 부분을 차지합니다.
일반적인 데이터 센터 네트워크(DCN) 토폴로지는 아래 다이어그램에 설명되어 있습니다.

다중 계층 DCN 아키텍처
다중 계층 DCN 아키텍처, 특히 3계층 DCN 아키텍처가 널리 사용됩니다. 이 트리 기반 구조는 주로 North-South 트래픽을 관리하며 다음 세 가지 계층으로 구성됩니다.
- 코어 레이어: 코어 레이어는 일반적으로 대용량 라우터 또는 스위치로 구성됩니다.
- Aggregation Layer(Distribution Layer): 액세스 레이어 장치를 연결하고 이들 사이에 라우팅, 필터링 및 트래픽 엔지니어링을 제공하는 역할을 담당합니다.
- 액세스 레이어: 액세스 레이어는 최종 사용자 장치가 네트워크에 직접 연결되어 사용자 장치를 데이터 센터 네트워크에 쉽게 연결할 수 있는 곳입니다.

이 아키텍처에서는 일반적으로 모든 액세스 장치가 최대 대역폭에서 동시에 통신하는 것은 아니라고 가정합니다. 따라서 계층 구조가 올라갈수록 더 작은 총 대역폭을 할당하는 것이 일반적인 방법입니다. 예를 들어 액세스 계층의 총 대역폭은 20Gbps인 반면 배포 계층의 총 대역폭은 1Gbps에 불과할 수 있습니다. 극단적인 경우 모든 장치가 최대 대역폭에서 통신하면 차단, 대기 시간 증가 및 예측할 수 없는 지연이 발생할 수 있습니다. 이러한 상황을 종종 초과 구독이라고 하며, 비율(예: 20:1)은 초과 구독률을 나타냅니다.
이 아키텍처 내에는 일반적으로 중복성 또는 백업 메커니즘이 있습니다. 코어 레이어와 분배 레이어 사이의 스위치는 상호 연결되어 잠재적으로 루프를 생성할 수 있습니다. 루프를 방지하기 위해 스패닝 트리 프로토콜(예: STP)이 사용됩니다. 그러나 이로 인해 중복성으로 인해 대역폭이 낭비될 수도 있습니다.
클로스네트웍스
CLOS 네트워크는 1953년 Charles Clos가 처음 제안한 다단계 스위칭 네트워크 구조입니다. 원래는 전화 교환에 사용되었지만 그 원리와 설계는 현재 데이터 센터 및 고성능 컴퓨팅에 널리 적용됩니다. 핵심 아이디어는 확장성을 유지하면서 다단계 상호 연결 구조를 통해 높은 대역폭과 낮은 지연 시간의 네트워크 서비스를 제공하는 것입니다.
아래 다이어그램에 표시된 것처럼 CLOS 네트워크는 일반적으로 세 가지 계층으로 구성됩니다.
Ingress Layer: 외부 입력 신호 수신을 담당합니다.
중간 계층: 수신 계층을 송신 계층 스위치에 연결합니다.
Egress Layer : 최종 목적지까지 데이터를 보내는 역할을 담당합니다.

CLOS 네트워크는 다음과 같은 기능과 이점을 제공합니다.
비차단: 이상적으로 CLOS 네트워크 설계는 비차단(수렴 없음)입니다. 즉, 스위치 병목 현상으로 인해 데이터 전송 지연이나 손실이 발생하지 않습니다.
확장성: 더 많은 레이어와 스위치를 추가함으로써 CLOS 네트워크는 성능 저하 없이 추가 입력 및 출력 연결을 지원하도록 쉽게 확장할 수 있습니다.
중복성: 설계의 다중 경로를 통해 특정 스위치나 연결에 장애가 발생하더라도 대체 경로를 통해 데이터를 전송할 수 있어 전반적인 네트워크 안정성이 향상됩니다.
유연성: CLOS 네트워크는 다양한 시스템 크기와 성능 요구 사항을 수용할 수 있도록 다양한 구성을 지원합니다.
Fat-Tree 토폴로지
Fat-Tree 데이터센터 네트워크(DCN) 아키텍처는 CLOS 네트워크의 특수한 형태입니다. 고성능 컴퓨팅 및 대규모 데이터 센터에서 널리 사용됩니다.
Charles Leiserson은 1985년에 이 네트워크 토폴로지를 도입했습니다. 기존의 3계층 트리 네트워크와 달리 Fat-Tree 토폴로지는 몇 가지 고유한 기능을 가지고 있습니다.
모든 레이어 스위치는 저가형 스위치로 교체됩니다.
계층 구조에서 위로 올라갈수록 링크는 "두꺼워지며" 병목 현상을 방지하기 위해 레이어 간에 일관된 총 대역폭을 유지합니다.
스위치 수와 연결은 각 계층에서 대칭이므로 장치의 균형 잡힌 경로를 보장하고 단일 장애 지점을 최소화합니다.

종단 간 대역폭 최대화: Fat-Tree 아키텍처의 주요 목표는 종단 간 대역폭을 최대화하는 것입니다. 1:1 초과 구독 비율을 달성하여 비차단 네트워크를 구현합니다.
스위치 수 및 포트 구성:
K-포트 Fat-Tree 네트워크 토폴로지(K는 스위치당 포트 수)에서 모든 스위치는 일반적으로 동일한 수의 포트를 갖습니다.
2레이어 및 3레이어 Fat-Tree 토폴로지를 살펴보겠습니다.
2레이어 Fat-Tree 토폴로지:
스파인 스위치: K/2 스위치, 각각 K*(K/2) 포트가 있습니다.
리프 스위치: K개의 스위치, 각각 K*K 포트가 있습니다.
이 구성을 사용하면 비차단 네트워크에서 최대 KK/2 서버를 사용할 수 있으며 3K/2 네트워크 스위치가 필요합니다.
3레이어 Fat-Tree 토폴로지:
코어 스위치(수퍼 스파인 스위치): (K/2)^2 스위치, 각각 K*(K/2)^2 포트 포함.
스파인 스위치: 2*(K/2)^2 스위치, 각각 K2(K/2)^2 포트 포함.
리프 스위치: 2*(K/2)^2 스위치, 각각 K2(K/2)^2 포트 포함.
이 설계는 비차단 네트워크에서 최대 K2(K/2)^2/2 = K^3/4 서버를 지원하며 5*K^2/4 스위치가 필요합니다.

2레이어 및 3레이어 Fat-Tree 토폴로지의 경우 스위치 수와 포트 구성은 특정 패턴을 따릅니다.
용어에는 다양한 변형이 있습니다(예: Fat-Tree 대 Spine-Leaf). 그러나 우리는 이를 모두 Fat-Tree라는 범주에서 고려할 것입니다.
엔비디아 DGX 슈퍼팟 – A100
DGX A100 시스템
아래 다이어그램에 표시된 DGX A100 시스템은 다음 구성 요소를 갖춘 6U 구성입니다.
8*A100 GPU: 각 GPU는 600GB/s NVLink 대역폭을 제공합니다.
총 NVSwitch 대역폭: 시스템은 4.8GB의 HBM640 메모리(GPU당 2GB)로 총 80TB/s NVSwitch 대역폭을 달성합니다.
컴퓨팅 연결(IB): 8개의 ConnectX-6 네트워크 카드가 있으며 총 8 * 200Gbps의 대역폭을 제공합니다.
스토리지 연결(IB): 스토리지 연결 2개.
대역 내 연결(이더넷): 내부 통신에 사용됩니다.
대역 외 연결(이더넷): 관리 목적으로 사용됩니다.

특히 NVLink 대역폭은 바이트 단위로 측정되는 반면 네트워크 대역폭은 일반적으로 비트를 사용합니다. 이 시스템에서는 내부 대역폭이 4.8TB/s에 달하는 반면, 전체 네트워크 대역폭은 1.6Tbps로 24배의 차이가 납니다.

슈퍼팟 SU
그림에 표시된 SuperPod SU(확장 가능 유닛)는 DGX-SuperPod-A100을 구성하기 위한 기본 구성 요소 역할을 합니다. 주요 구성 요소는 다음과 같습니다.
각 SU에는 컴퓨팅 랙 5개와 리프 네트워크 랙 1개가 포함됩니다.
각 컴퓨팅 랙에는 DGX A4 시스템 100개와 2U 배전 장치(PDU) 3개가 있어 컴퓨팅 랙당 총 32개의 A100 GPU가 있습니다. 따라서 SU는 160개의 A100 GPU로 구성됩니다.
리프 네트워크 랙에는 컴퓨팅 스위치(8U) 1개와 스토리지 스위치(2U) 1개가 포함되어 있습니다.
컴퓨팅 스위치는 QM8790 200Gb/s IB 스위치를 활용하여 총 320개의 포트를 제공합니다.
160개의 포트가 컴퓨팅 랙의 ConnectX-6 네트워크 카드에 연결되어 GPU당 200Gbps를 제공합니다.
나머지 160개 포트는 Spine Rack에 연결됩니다.

일부 시나리오에서는 간단한 케이블 연결을 위해 캐비닛 내에 ToR(Top-of-Rack) 스위치를 사용할 수도 있습니다. 그러나 이 접근 방식은 포트 낭비를 초래할 수 있습니다. 예를 들어, 전력 제약 및 냉각 문제로 인해 GPU 서버는 종종 단일 캐비닛으로 제한되어 네트워크 카드 수가 줄어듭니다.

일부 산업 시나리오에서는 4*A200 시스템 내에서 더 적은 수의 네트워크 카드(예: 8×100Gbps)를 사용할 수 있지만 전체 네트워크 토폴로지는 유사하게 유지됩니다.
척추랙
그림에 표시된 것처럼 스파인 랙에는 20개의 1U 컴퓨팅 스위치, 특히 QM8790 200Gb/s IB 스위치가 포함되어 총 800개의 포트가 있습니다. 나머지 Out-of-band 스위치와 In-band 스위치는 네트워크 관리에 사용될 수 있습니다.

DGX SuperPod 100노드
아래 그림은 100개의 SU와 추가 스파인 랙으로 구성된 5노드 DGX-SuperPOD를 보여줍니다.
각 SU에는 8개의 리프 컴퓨팅 스위치(QM7890, 200Gbps)가 포함되어 있습니다.
각 노드의 8개의 ConnectX-6 NIC는 8개의 리프 컴퓨팅 스위치에 연결되며 각 ConnectX-6은 1개의 GPU에 해당합니다.
리프 컴퓨팅 스위치에는 SU 내의 20개 노드에 연결되는 20개의 포트와 스파인 랙의 20개 스파인 컴퓨팅 스위치에 연결되는 추가 20개의 포트가 있습니다.

이 토폴로지는 800개의 GPU에 대한 비차단 네트워크를 달성합니다(두 개의 GPU가 통신할 수 있음).
서로 다른 SU의 GPU는 ConnectX-6 -> 리프 스위치 -> 스파인 스위치 -> 리프 스위치 -> ConnectX-6을 통해 연결됩니다.
동일한 SU 내의 GPU이지만 다른 노드는 ConnectX-6 -> 리프 스위치 -> ConnectX-6을 통해 연결됩니다.
동일한 노드 내의 GPU는 NVLink를 통해 통신합니다.
QM800을 사용하는 200개 GPU(각 GPU는 8790Gbps NIC 포트에 해당)에 대한 실제 제한은 2레벨 Fat-Tree 네트워크입니다. 800개의 GPU를 초과하면 3레벨 Fat-Tree가 필요하며 최대 16,000개의 GPU를 허용합니다.
DGX SuperPod 140노드
모든 컴퓨팅 스위치 포트가 사용되는 100노드 시스템에서 더 많은 GPU로 확장하려면 2레이어에서 3레이어 스위치로 전환해야 합니다. 여기에는 여전히 8790Gbps에서 QM200을 사용하는 코어 컴퓨팅 스위치 레이어를 추가하는 작업이 포함됩니다.
그림은 140개 SU(총 7개 리프 스위치)를 갖춘 56노드 SuperPod를 보여줍니다. 이상적으로 56개의 리프 스위치에는 56개의 스파인 스위치와 28개의 코어 스위치가 필요합니다. 그러나 실제 설계에서는 각각 80개의 스파인 스위치로 구성된 8개의 그룹(SG)과 10개의 코어 스위치로 구성된 각 코어 그룹(CG)으로 구성된 14개의 스파인 스위치를 사용합니다. 이 대칭형 Fat-Tree 토폴로지는 관리를 단순화합니다.
SU의 각 리프 스위치는 해당 SG의 10개 스파인 스위치에 연결됩니다(리프 스위치당 20개 포트). 스파인 스위치는 코어 스위치에 대한 교대로 연결됩니다(홀수 위치는 홀수 코어 스위치에, 짝수 위치는 짝수 코어 스위치에 연결).
각 코어 스위치는 40개의 스파인 스위치에 연결됩니다.

이 구성은 각 GPU에 ConnectX-140 8Gbps NIC가 있는 1120*6=200 GPU 클러스터를 지원합니다.
스토리지 랙
아래 그림에 표시된 대로 스토리지 랙에는 스토리지 스위치 4개와 QM8790 200Gbps IB 스위치(총 160개 포트)가 포함되어 있습니다. 해당 저장 장치도 랙 내에 있습니다.

DGX SuperPod 스토리지 패브릭
그림은 140노드 구성의 스토리지 패브릭을 보여줍니다. 18개의 리프 스위치로 구성됩니다. 각 SuperPod SU(확장 가능 장치)에는 리프 네트워크 랙 2개와 스토리지 랙 1개가 포함되어 있습니다. 또한 8개의 스파인 스위치가 있습니다.

추가 구성
표 3에는 다양한 노드의 컴퓨팅 구성에 대한 세부 정보가 나와 있습니다.

표 4에는 스토리지 구성이 요약되어 있습니다.

엔비디아 DGX 슈퍼팟 – H100
DGX H100 시스템
그림과 같이 DGX H100 시스템(6U)에는 다음이 포함됩니다.
- 8개의 H100 GPU, 각각 900GB/s NVLink 대역폭.
- 총 7.2TB/s NVSwitch 대역폭 및 640GB HBM3 메모리(GPU당 80GB).
- 4개의 ConnectX-8 NIC에 해당하는 7개의 OSFP 포트(IB)는 8*400Gbps 대역폭을 제공합니다.
- 슬롯 1과 2에는 2개의 ConnectX-7 NIC가 있어 2*400Gbps 대역폭을 제공합니다.
- 대역 내 연결(이더넷).


8개의 GPU는 모두 NVSwitch를 통해 완전히 상호 연결됩니다. 내부 대역폭은 7.2TB/s에 달하고, 전체 네트워크 대역폭은 3.2Tbps로 22.5배의 차이가 난다.
슈퍼팟 SU
그림 2는 SuperPod SU로 알려진 DGX-SuperPod-H100의 기본 구성 요소를 보여줍니다.
- 각 SU에는 8개의 컴퓨팅 랙이 포함되어 있으며 각 랙은 40kW를 제공합니다.
- 각 컴퓨팅 랙에는 4개의 DGX H100 시스템과 3개의 PDU(전력 분배 장치)가 있으므로 컴퓨팅 랙당 32개의 H100 GPU가 있습니다. 따라서 SU는 256개의 H100 GPU를 수용합니다.

관리랙
H100 GPU에 해당하는 DGX SuperPod에서 NVIDIA는 A100 시리즈의 Spine 및 Storage Rack과 유사한 Management Rack을 제공합니다. 그림 3은 예를 제공합니다(특정 구성은 다를 수 있음):
- 리프 컴퓨팅 스위치 32개(QM9700)는 각각 64개의 400Gbps 포트를 제공합니다. 이론적으로 노드의 ConnectX-1024 NIC에 연결할 수 있는 400개의 7Gbps 포트가 있습니다. 나머지 1024개 포트는 정확히 16개의 Spine Compute Switch에 연결되어 1024개 GPU에 대한 비차단 네트워크를 구현합니다.
- 16개의 스파인 컴퓨팅 스위치(또한 QM9700)는 32개의 리프 컴퓨팅 스위치에 있는 포트의 절반에 연결됩니다.
- 8개의 리프 스토리지 스위치(QM9700)가 설정의 일부입니다.
- 4개의 스파인 스토리지 스위치(QM9700)가 구성을 완료합니다.

DGX SuperPod 127노드
그림 5는 127개의 확장 가능 유닛(SU) 및 관련 관리 랙이 포함된 4노드 DGX SuperPod를 보여줍니다. 이론적으로 관리 랙은 128개의 SU에 걸쳐 4개의 노드에 연결할 수 있습니다. 그러나 일부 리프 스위치가 UFM(Unified Fabric Manager)에 연결되어 있기 때문에 실제 노드 수는 127개입니다.

추가 구성
표 3에서 볼 수 있듯이 QM9700 스위치를 사용하면 2레벨 Fat-Tree는 최대 6464/2=2048 GPU(8개 SU에 해당)에 대한 비차단 네트워크를 달성할 수 있습니다. 3레벨 Fat-Tree는 최대 6464*64/4=65536 GPU를 지원할 수 있습니다. 실제로 구성에는 64개의 SU, 총 16384개의 GPU가 포함됩니다.

산업 GPU 훈련 클러스터 솔루션
2단계 Fat-Tree 토폴로지
일반적인 8단계 비차단 Fat-Tree 토폴로지(Spine-Leaf)는 8-GPU 훈련 기계에 널리 사용됩니다. 단일 시스템 내에서 XNUMX개의 GPU는 NVLink + NVSwitch를 통해 완전히 상호 연결되며, 통신 대역폭은 네트워크 대역폭보다 훨씬 높습니다. 따라서 각 GPU의 NIC를 다른 스위치에 연결하는 것이 표준 관행입니다.
각 그룹에는 머신의 8개 GPU에 해당하는 8개의 리프 스위치가 포함되어 있습니다.
리프 스위치에 128개의 포트가 있다고 가정하면 64개의 포트가 해당 GPU의 NIC에 연결되어 그룹당 64*8=512개의 GPU가 됩니다. 리프 스위치 1은 모든 노드 1 GPU의 NIC 등을 연결합니다.
이 기능은 분산 교육 전략을 설계할 때 활용할 수 있습니다.
스파인과 리프 스위치 간에 풀 메시를 달성하기 위해 각 리프 스위치는 하나의 스파인 스위치에 연결됩니다. 따라서 64개의 스파인 스위치가 있으며 각 스파인 스위치는 128개의 리프 스위치 모두에 연결됩니다. 이를 위해서는 16개의 그룹이 필요합니다.
요약하면 각각 192개의 포트가 있는 최대 128개의 스위치는 512*16=8192 GPU를 지원할 수 있습니다.

FiberMall 2단계 Fat-Tree 토폴로지
64레벨 Fat-Tree에 대한 FiberMall 표준 솔루션은 이전에 설명한 토폴로지와 유사합니다. 그러나 XNUMX포트 스위치를 사용합니다.

64포트 400Gbps 스위치로 인해:
리프 및 스파인 스위치는 절반으로 줄었습니다(각각 64개 및 32개).
GPU 지원이 1/4로 줄어들어 2*(64/2)*(64/2)=2048 GPU가 됩니다.
총 광학 모듈 수에는 스위치 포트와 GPU NIC가 포함됩니다: (64+32)*64+2048=8192.
3단계 Fat-Tree 토폴로지
일반적인 3단계 비차단 Fat-Tree 토폴로지(SuperSpine-Spine-Leaf)는 2단계 Spine-Leaf를 Pod로 처리합니다.
Spine 스위치는 SuperSpine 스위치에도 연결되므로 그룹 수가 절반으로 줄어듭니다. 각 포드에는 64개의 GPU에 해당하는 4096개의 스파인 스위치가 있습니다.
여러 포드는 추가로 64개의 SuperSpine 패브릭을 구축할 수 있으며, 각 패브릭은 서로 다른 포드의 Spine 스위치와 완전히 상호 연결됩니다. 예를 들어 포드가 8개인 경우 각 패브릭에는 4포트 SuperSpine 스위치 128개만 필요합니다.
포드 8개 구성에는 다음이 포함됩니다.
- 총 GPU: 4096*8=32768
- SuperSpine 스위치: 64*4=256
- 스파인 스위치: 64*8=512
- 리프 스위치: 64*8=512
- 총 스위치: 256+512+512=1280
- 총 광학 모듈: 1280*128+32768=196608
이론적 최대값은 다음에 해당하는 128개의 Pod를 지원합니다.
- GPUs: 4096128=524288=2(128/2)^3
- SuperSpine Switches: 64*64=4096=(128/2)^2
- Spine Switches: 64128=8192=2(128/2)^2
- Leaf Switches: 64128=8192=2(128/2)^2
- Total Switches: 4096+8192+8192=20480=5*(128/2)^2
관련 상품:
-
NVIDIA MMA4Z00-NS400 호환 400G OSFP SR4 플랫 탑 PAM4 850nm 30m on OM3/50m on OM4 MTP/MPO-12 다중 모드 FEC 광 트랜시버 모듈 $650.00
-
NVIDIA MMA4Z00-NS-FLT 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $850.00
-
NVIDIA MMA4Z00-NS 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $750.00
-
NVIDIA MMS4X00-NM 호환 800Gb/s 트윈 포트 OSFP 2x400G PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $1100.00
-
NVIDIA MMS4X00-NM-FLT 호환 800G 트윈 포트 OSFP 2x400G 플랫 탑 PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $1200.00
-
NVIDIA MMS4X00-NS400 호환 400G OSFP DR4 플랫 탑 PAM4 1310nm MTP/MPO-12 500m SMF FEC 광 트랜시버 모듈 $800.00
-
Mellanox MMA1T00-HS 호환 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 광 트랜시버 모듈 $200.00
-
NVIDIA MFP7E10-N010 호환 10m(33ft) 8 섬유 낮은 삽입 손실 암-암 MPO 트렁크 케이블 극성 B APC-APC LSZH 다중 모드 OM3 50/125 $47.00
-
NVIDIA MCP7Y00-N003-FLT 호환 3m(10피트) 800G 트윈 포트 OSFP - 2x400G 플랫 탑 OSFP InfiniBand NDR 브레이크아웃 DAC $275.00
-
NVIDIA MCP7Y70-H002 호환 2m(7피트) 400G 트윈 포트 2x200G OSFP - 4x100G QSFP56 패시브 브레이크아웃 직접 연결 구리 케이블 $155.00
-
NVIDIA MCA4J80-N003-FTF 호환 3m(10피트) 800G 트윈 포트 2x400G OSFP - 2x400G OSFP InfiniBand NDR 활성 구리 케이블, 한쪽 끝은 평면 상단, 다른 쪽 끝은 핀형 상단 $600.00
-
NVIDIA MCP7Y10-N002 호환 가능한 2m(7피트) 800G InfiniBand NDR 트윈 포트 OSFP - 2x400G QSFP112 브레이크아웃 DAC $200.00