A100/H100/GH200 클러스터: 네트워크 아키텍처 및 광 모듈 요구 사항

기존 데이터 센터는 주로 데이터 센터 내 동서 트래픽 증가를 수용하기 위해 2021계층 아키텍처에서 리프 스파인 아키텍처로 전환되었습니다. 클라우드로의 데이터 마이그레이션 프로세스가 지속적으로 가속화됨에 따라 클라우드 컴퓨팅 데이터 센터의 규모도 지속적으로 확장되고 있습니다. 이러한 데이터 센터에 채택된 가상화 및 하이퍼 컨버지드 시스템과 같은 애플리케이션으로 인해 동서 트래픽이 크게 증가했습니다. Cisco의 이전 데이터에 따르면 70년 내부 데이터 센터 트래픽이 데이터 센터 관련 트래픽의 XNUMX% 이상을 차지했습니다. .

예를 들어 기존 3계층 아키텍처에서 리프-스파인 아키텍처로 전환하면 리프-스파인 네트워크 아키텍처에 필요한 광학 모듈 수가 최대 수십 배까지 늘어날 수 있습니다.

백서-c11-737022_1

대규모 AI 클러스터를 위한 네트워크 아키텍처 요구 사항

네트워크 병목 현상을 완화해야 할 필요성을 고려할 때, 대규모 AI 클러스터의 네트워크 아키텍처는 높은 대역폭, 낮은 지연 시간, 무손실 전송의 요구 사항을 충족해야 합니다. AI 컴퓨팅 센터는 일반적으로 비차단 네트워크를 특징으로 하는 Fat-Tree 네트워크 아키텍처를 채택합니다. 또한, 노드 간 상호 연결 병목 현상을 피하기 위해 NVIDIA는 NVLink를 사용하여 효율적인 GPU 간 통신을 가능하게 합니다. PCIe에 비해 NVLink는 더 높은 대역폭 이점을 제공하여 NVIDIA의 공유 메모리 아키텍처의 기반이 되고 GPU 간 광 상호 연결에 대한 새로운 수요를 창출합니다.

A100 네트워크 구조 및 광모듈 요구사항

각 DGX A100 SuperPOD의 기본 배포 구조는 140개의 서버(각 서버에는 8개의 GPU가 있음)와 스위치(각 스위치에는 40개의 포트, 각 포트는 200G)로 구성됩니다. 네트워크 토폴로지는 IB(InfiniBand) Fat-Tree 구조입니다. 네트워크 레이어 수와 관련하여 140레이어 네트워크 구조(서버-리프 스위치-스파인 스위치-코어 스위치)가 1120개의 서버에 배포되며 각 레이어에 해당하는 케이블 수는 각각 1124-1120-200입니다. 서버와 스위치 사이에 구리 케이블을 사용한다고 가정하고, 1G 광 모듈 0.15개에 해당하는 케이블 4개를 기준으로 GPU:스위치:광 모듈의 비율은 1:0.15:6이다. 전광 네트워크를 사용하는 경우 비율은 GPU:스위치:광 모듈 = XNUMX:XNUMX:XNUMX이 됩니다.

개발자_c087f74
5ZCez_5CQB3B

H100 네트워크 구조 및 광모듈 요구사항

각 DGX H100 SuperPOD의 기본 배포 구조는 32개의 서버(각 서버에는 8개의 GPU가 있음)와 12개의 스위치로 구성됩니다. 네트워크 토폴로지는 IB Fat-Tree 구조로, 각 스위치 포트는 400G에서 작동하고 800G 포트로 결합될 수 있습니다. 4SU ​​클러스터의 경우 전광 네트워크와 XNUMX계층 Fat-Tree 아키텍처를 가정하면, 400G 광 모듈 서버와 리프 스위치 사이에는 800G 광 모듈이 사용되며, 리프-스파인과 스파인-코어 스위치 사이에는 400G 광 모듈이 사용됩니다. 필요한 3284G 광모듈 개수는 256=800개, 3282.5G 광모듈 개수는 640=400개이다. 따라서 GPU:스위치:800G 광모듈:1G 광모듈의 비율은 0.08:1:2.5:XNUMX입니다.

rzcF8_94mA6j

200계층 팻 트리 네트워크 구조를 사용하는 256개의 상호 연결된 슈퍼 칩 GPU로 구성된 단일 GH1 클러스터의 경우 두 계층 모두 NVLink 스위치로 구축됩니다. 첫 번째 계층(서버와 레벨 96 스위치 사이)은 2개의 스위치를 사용하고, 레벨 36는 32개의 스위치를 사용합니다. 각 NVLink 스위치에는 800개의 포트가 있으며 각 포트의 속도는 4.0G입니다. NVLink 900의 양방향 집계 대역폭이 450GB/s이고 단방향이 256GB/s라고 가정할 때 115,200개 카드 클러스터의 액세스 레이어에 대한 총 업링크 대역폭은 800GB/s입니다. 팻 트리 아키텍처와 100G 광 모듈 전송 속도(800GB/s)를 고려하면 2,304G 광 모듈에 필요한 총 요구 사항은 200개입니다. 따라서 GH1 클러스터 내에서 GPU 대 광학 모듈의 비율은 9:200입니다. 100계층 네트워크 구조에서 H800 아키텍처를 참조하여 여러 GH1 클러스터를 상호 연결할 때 GPU 대 2.5G 광 모듈 수요는 1:1.5입니다. 200계층 네트워크에서는 800:1입니다. 따라서 여러 개의 GH9을 상호 연결할 때 GPU 대 2.5G 광 모듈 비율의 상한은 1:(11.5+XNUMX) = XNUMX:XNUMX입니다.

엔비디아-그레이스-호퍼-gh200-nvlink-패브릭
NVIDIA GH 슈퍼칩 시스템

요약하면, 컴퓨팅 클러스터가 네트워크 성능을 지속적으로 향상함에 따라 고속 광 모듈에 대한 수요가 더욱 탄력적이 됩니다. NVIDIA 클러스터를 예로 들면, 가속기 카드에 의해 조정되는 네트워크 카드 인터페이스 속도는 네트워크 프로토콜 대역폭과 밀접한 관련이 있습니다. A100 GPU는 최대 단방향 대역폭이 4.0Gb/s인 PCIe 252을 지원하므로 PCIe 네트워크 카드 속도는 Mellanox HDR 252Gb/s Infiniband 네트워크 카드와 쌍을 이루는 200Gb/s 미만이어야 합니다. H100 GPU는 최대 단방향 대역폭이 5.0Gb/s인 PCIe 504을 지원하므로 Mellanox NDR 400Gb/s Infiniband 네트워크 카드와 페어링됩니다. 따라서 A100에서 H100으로 업그레이드하면 해당 광 모듈 수요가 200G에서 800G로 증가합니다(400개의 800G 포트가 하나의 200G로 결합됨). GH450은 카드 간 연결을 위해 NVLink를 사용하고 단방향 대역폭은 800GB/s로 증가하여 100G 수요에 대한 탄력성을 더욱 높입니다. H5.0 클러스터가 PCIe 6.0에서 PCIe 1024으로 업그레이드되고 최대 단방향 대역폭이 800Gb/s로 증가했다고 가정해 보겠습니다. 이 경우 액세스 레이어 네트워크 카드 속도를 800G까지 높일 수 있습니다. 즉, 액세스 레이어에서 800G 광 모듈을 사용할 수 있고 클러스터의 XNUMXG 광 모듈에 해당하는 단일 카드에 대한 수요 탄력성이 두 배가 됩니다.

Meta의 컴퓨팅 클러스터 아키텍처 및 애플리케이션은 이전에 LLaMA 모델 교육을 위한 "Research SuperCluster" 프로젝트를 출시했습니다. RSC 프로젝트의 두 번째 단계에서 Meta는 2,000개의 A100 GPU를 포함하는 총 16,000대의 A100 서버를 배포했습니다. 클러스터에는 2,000계층 CLOS 네트워크 아키텍처에 해당하는 48,000개의 스위치와 96,000개의 링크가 포함되어 있습니다. 전체 광 네트워크를 채택하면 200G 광 모듈 100개에 해당합니다. 즉, A1 GPU와 광 모듈의 비율이 6:100으로 이전에 계산된 AXNUMX 아키텍처와 일치합니다.

메타-네트워킹-규모-32k-규모-토폴로지

Meta는 최대 3개의 GPU를 지원할 수 있는 InfiniBand와 이더넷이 모두 포함된 클러스터를 포함하는 H100 GPU를 사용하여 LLaMA32,000용 교육 인프라를 구현했습니다. Meta가 공개한 정보에 따르면 이더넷 솔루션의 경우 컴퓨팅 클러스터는 여전히 통합 리프-스파인 네트워크 아키텍처를 사용합니다. 각 랙에는 2개의 TOR(Top-of-Rack) 스위치(Wedge 1 사용)에 연결된 400개의 서버가 포함되어 있으며 클러스터에는 총 252개의 서버가 있습니다. 클러스터 스위치는 총 2개의 클러스터 스위치가 있는 Minipack18 OCP 랙 스위치를 사용하여 3.5:1의 수렴 비율을 제공합니다. 18:7800의 수렴 비율을 갖는 3개의 집계 레이어 스위치(Arista 7R1 사용)가 있습니다. 클러스터는 주로 400G 광 모듈을 사용합니다. 클러스터 아키텍처 관점에서 볼 때, 이더넷 솔루션은 여전히 ​​이더넷 연합과 같은 조직의 발전에 주목하면서 비차단 네트워크 구축을 촉진하기 위해 프로토콜 수준에서 추가적인 혁신이 필요합니다.

AWS는 H2 GPU와 독점 Trainium ASIC 솔루션을 포함하는 100세대 EC2 Ultra Clusters를 출시했습니다. AWS EC5 Ultra Clusters P100 인스턴스(예: H3200 솔루션)는 20,000Gbps의 총 네트워크 대역폭을 제공하고 최대 1 GPU의 네트워킹 용량으로 GPUDirect RDMA를 지원합니다. Trn16n 인스턴스(독점 Trainium 솔루션)는 1600Gbps의 총 네트워크 대역폭을 제공하는 30,000개 카드 클러스터를 갖추고 있으며, 6EFlops의 컴퓨팅 성능에 해당하는 최대 XNUMX개의 ASIC 네트워크를 지원합니다.

aws-ec2-울트라클러스터-블록 다이어그램
이미지 2

AWS EC2 Ultra Clusters 카드 간의 상호 연결은 NVLink(H100 솔루션용) 및 NeuronLink(Trainium 솔루션용)를 사용하며, 독점 EFA 네트워크 어댑터를 사용한 클러스터 상호 연결을 제공합니다. Nvidia의 솔루션과 비교하여 AWS의 독점 Trainium ASIC 클러스터는 카드당 예상 업링크 대역폭이 100G(총 대역폭 1600G/카드 16개 = 100G)이므로 현재 수요가 없습니다. 800G AWS 아키텍처의 광학 모듈.

Google의 최신 컴퓨팅 클러스터는 4차원 토러스로 구성된 TPU 배열로 구성됩니다. XNUMX차원 토러스는 두 개의 인접한 TPU에 연결된 각 TPU에 해당하고, XNUMX차원 토러스는 XNUMX개의 인접한 TPU에 연결된 각 TPU에 해당하는 두 개의 직교 링으로 구성됩니다. Google의 TPUvXNUMX는 각 TPU가 XNUMX개의 인접한 TPU에 연결된 XNUMX차원 토러스를 나타냅니다.

Google-기계 학습-슈퍼컴퓨터-광학적으로 재구성 가능한 상호 연결 포함-_Page_11-746x420
양방향 CWDM4 광트랜시버

이를 기반으로 각 캐비닛 내에 TPU 3=444개의 64D 네트워크 구조가 구축된다. 3D 구조의 외부 부분은 4096개의 캐비닛에 해당하는 64개의 TPU와 48개의 OCS 스위치(48*64=6144개의 광학 모듈에 해당)의 상호 연결을 통해 OCS에 연결됩니다. 내부적으로는 DAC 연결(케이블 18000개)이 사용되어 TPU 대 광학 모듈 비율이 1:1.5가 됩니다. OCS 솔루션은 광모듈에 파장분할다중화 솔루션을 적용하고 서큘레이터를 추가해 광섬유 수를 줄여야 하며, 광모듈 솔루션은 맞춤형 기능(800G VFR8)을 갖췄다.

코멘트 남김

위쪽으로 스크롤