클러스터의 유효 계산 능력은 GPU 활용도와 클러스터의 선형 속도 향상으로 나눌 수 있습니다. GPU 활용도는 칩 아키텍처, 프로세스 기술, 메모리, I/O 병목 현상, 카드 간 상호 연결 대역폭, 토폴로지, 전력 소비 등의 요인에 의해 영향을 받습니다. 반면 '클러스터 선형 속도 향상'은 노드 통신 기능, 병렬 훈련 프레임워크 및 리소스 스케줄링에 따라 달라집니다.

짧은 대기 시간, 높은 대역폭, 차단되지 않은 노드 간 통신을 달성하려면 효율적인 클러스터 네트워킹 솔루션을 설계하는 것이 중요합니다. 이는 여러 머신과 GPU 간의 통신 오버헤드를 줄여 궁극적으로 효과적인 GPU 컴퓨팅 시간(GPU 컴퓨팅 시간/전체 훈련 시간)을 향상시킵니다. China Mobile Research Institute의 'AI 대형 모델을 위한 네트워크 진화에 관한 백서'에 따르면 AI 대형 모델은 네트워크 인프라에 대한 새로운 요구 사항을 제시합니다.
- 초대형 네트워킹: 매개변수 수가 수십억에서 수조에 달하는 AI 초대형 모델은 매우 높은 컴퓨팅 성능을 요구합니다. 결과적으로 이를 위해서는 많은 양의 하드웨어와 확장 가능한 네트워크 용량이 필요합니다. '1000개 카드 클러스터를 위한 새로운 지능형 컴퓨팅 기술에 관한 백서'에 따르면 최적의 계산 효율성, 데이터 처리 기능, 수천 개의 카드에 대한 하드웨어 수준 상호 연결 및 네트워크 가용성을 달성하는 것이 AI 컴퓨팅 센터의 중요한 주제가 됩니다.

- 초고대역폭 요구 사항: 다중 GPU 클러스터에서는 서버 내 통신과 서버 간 통신이 모두 불가피합니다. 서버 내 통신에는 모델 병렬성에 의해 생성된 All Reduce 집단 통신 데이터가 포함되며 수백 기가바이트에 이릅니다. 따라서 GPU 내부 통신 대역폭과 방법은 종단 간 흐름 완료 시간에 큰 영향을 미칩니다. 파이프라인 병렬 처리, 데이터 병렬 처리, 텐서 병렬 처리와 같은 모드의 서버 간 통신도 유사한 데이터 볼륨에 도달합니다. 복잡한 집단 통신 패턴에는 다대일 통신과 일대다 통신이 동시에 포함됩니다. 따라서 단일 포트 대역폭, 사용 가능한 노드 간 링크 및 전체 네트워크 대역폭을 위해서는 GPU 간의 고속 상호 연결이 필수적입니다.
- 매우 낮은 대기 시간: 데이터 통신 대기 시간은 정적 구성 요소와 동적 구성 요소로 구성됩니다. 정적 대기 시간은 포워딩 칩 기능과 전송 거리에 따라 달라집니다. 네트워크 토폴로지와 통신 데이터 볼륨이 고정되어 있는 경우 대기 시간 중 이 부분은 상대적으로 일정하게 유지됩니다. 동적 대기 시간에는 일반적으로 네트워크 정체, 패킷 손실 및 지터로 인해 발생하는 스위치 내부 대기열 지연 및 패킷 손실 재전송 지연이 포함됩니다.
- 초고 안정성 및 자동화된 배포: 카드 수가 크게 증가함에 따라 네트워크 안정성은 클러스터 네트워크에서 '가장 약한 링크'가 됩니다. 네트워크 오류 및 성능 변동은 노드 간 연결과 리소스 활용도 모두에 영향을 미칩니다.
RDMA(원격 직접 메모리 액세스)는 여러 시스템과 GPU 간의 엔드투엔드 통신 대기 시간을 줄일 수 있습니다. 기존 네트워크에서 데이터 전송에는 여러 단계가 포함됩니다. 먼저 소스 시스템의 커널에서 네트워크 스택으로 데이터를 복사한 다음 네트워크를 통해 전송합니다. 마지막으로 수신 측에서는 여러 단계를 통해 데이터를 대상 시스템의 커널로 다시 복사합니다. RDMA는 운영 체제 커널을 우회하여 한 호스트가 다른 호스트의 메모리에 직접 액세스할 수 있도록 합니다. 현재 주요 RDMA 기술은 InfiniBand와 RoCEv2(RDMA over Converged Ethernet)입니다.

InfiniBand(IB)와 RDMA over Converged Ethernet(RoCE)은 두 가지 주요 네트워크 기술입니다. IB는 낮은 지연 시간과 높은 대역폭에서 뛰어나고, 이더넷은 개방성과 비용 효율성을 제공합니다. 널리 채택되고 성숙해진 RoCE는 우수한 호환성으로 다양한 시스템을 상호 연결하는 초석 역할을 합니다. 또한 여러 공급업체의 이점을 활용하여 비용상의 이점이 있습니다.
이와 대조적으로 IB는 HPC 클러스터에서 일반적으로 사용되는 고대역폭, 짧은 대기 시간 및 안정적인 네트워크 상호 연결에 특화되어 있습니다. 그러나 제한된 공급업체 지원으로 인해 배포 비용이 RoCE보다 높습니다.
RoCE는 확실한 선택인 반면 InfiniBand는 탁월한 솔루션으로 돋보입니다. 특히 슈퍼컴퓨팅 클러스터에서 IB는 여전히 널리 사용되고 효율적인 상호 연결로 남아 있습니다. 그럼에도 불구하고 비용과 개방성을 고려하여 많은 클라우드 컴퓨팅 회사는 독점 IB 솔루션 대신 오픈 소스 이더넷 스위치를 선택합니다. AWS의 수석 엔지니어인 Brian Barrett에 따르면 전용 IB 네트워크는 클라우드 데이터 센터 내에서 유연한 리소스 할당 및 공유가 가능한 광대한 바다에 있는 고립된 섬과 같을 수 있습니다.

또한, Linux Foundation의 주도 하에 UEC(Ultra Ethernet Consortium)가 19년 2023월 XNUMX일에 설립되었습니다. 클라우드 제공업체(예: MATA 및 Microsoft), 네트워크 장비 제조업체(Broadcom, Cisco 및 HP 포함), 반도체 회사(AMD 및 Intel)로 구성된 UEC는 이더넷을 기반으로 개방적이고 상호 운용 가능한 고성능 통신 스택을 제공하는 것을 목표로 합니다. . 이 이니셔티브는 증가하는 AI 및 HPC의 네트워크 수요를 지원합니다.
RDMA를 일찍 도입한 InfiniBand는 낮은 지연 시간, 높은 대역폭, 안정성과 같은 기본 이점을 제공합니다. 2015년 InfiniBand의 TOP500 슈퍼컴퓨터 목록에서의 점유율은 50%를 넘어서 슈퍼컴퓨터에 선호되는 내부 연결 기술이 되었습니다.
현재 InfiniBand(IB) 아키텍처의 주요 공급업체는 Nvidia의 Mellanox입니다. IBTA(InfiniBand Trade Association)는 Intel, Microsoft, SUN, IBM, Compaq 및 HP와 같은 주요 기업에 의해 처음 설립되었습니다. 1999년 2001월 Intel과 Galileo Technology의 전직 직원들이 이스라엘에서 Mellanox를 설립했습니다. 2002년에 그들은 첫 번째 IB 제품을 출시했습니다. 그러나 XNUMX년 IB 진영의 원조 강자였던 인텔과 마이크로소프트가 철수했다.
2010년에 Mellanox는 Voltaire와 합병되어 Mellanox와 QLogic이 주요 IB 공급업체가 되었습니다. 2012년 Intel은 QLogic의 IB 네트워킹 사업을 125억 140만 달러에 인수하여 IB 진영에 다시 진입했습니다. 얼마 지나지 않아 Intel은 Cray로부터 "Gemini" XT 및 "Aries" XC 슈퍼컴퓨팅 상호 연결 사업을 XNUMX억 XNUMX천만 달러에 인수했습니다. 그들은 나중에 IB와 Aries를 기반으로 하는 새로운 Omni-Path 상호 연결 기술을 개발했습니다.
2013년 Mellanox는 실리콘 포토닉스 기술 회사인 Kotura와 병렬 광 상호 연결 칩 제조업체인 IPtronics를 인수하여 계속 확장했습니다. 2015년까지 Mellanox는 전 세계 InfiniBand 시장에서 80%의 시장 점유율을 차지했습니다. 2019년 Nvidia는 Mellanox를 성공적으로 인수하여 경쟁사인 Intel과 Microsoft를 제치고 6.9억 달러의 거래를 체결했습니다.
이제 Nvidia의 최신 세대 GB200 제품을 살펴보겠습니다.
- 랙의 내부 구성:
각 랙에는 컴퓨팅 트레이 18개(상단 10개, 하단 8개)와 스위치 트레이 9개가 포함되어 있습니다.
구리 케이블 카트리지는 랙 내의 컴퓨팅 트레이와 스위치 트레이를 연결합니다.
액체 냉각 시스템을 활용하는 GB200은 동일한 전력 소비로 H25의 공냉식 인프라에 비해 100배의 성능을 달성합니다.
컴퓨팅 트레이 구성 요소:
각 개별 컴퓨팅 트레이에는 다음이 포함됩니다.
GB2 그레이스 블랙웰 슈퍼칩 200개
ConnectX-4G InfiniBand Supernics 800개
BlueField-1 데이터 처리 장치(DPU) 3개.

GB200 그레이스 블랙웰 슈퍼칩:
GB200 Grace Blackwell Superchip은 Blackwell GPU XNUMX개와 Grace CPU XNUMX개로 구성됩니다.
각 개별 Blackwell GPU는 이전 Hopper GPU 아키텍처 크기의 두 배입니다.
하지만 AI 성능(FP4)은 호퍼의 XNUMX배다.
특히 단일 Blackwell GPU는 약 20페타플롭스의 AI 성능(FP8)을 달성합니다.
인상적인 8TB/s 메모리 대역폭을 갖춘 24x 3GB HBM8e 메모리를 갖추고 있습니다.
GB200에는 18개의 NVLink 포트가 있으며 18개의 NVLink 스위치 칩에 연결되어 1.8TB/s의 속도로 양방향 통신을 달성합니다.
ConnectX-800G InfiniBand Supernic:
ConnectX-800G InfiniBand Supernic은 엔드투엔드 800Gb/s 네트워크 연결과 성능 격리를 지원합니다.
이는 멀티 테넌트 AI 클라우드의 효율적인 관리를 위해 특별히 설계되었습니다.
PCIe 6.0을 활용하여 800Gb/s의 데이터 처리량을 제공합니다.
ConnectX-8 Supernic은 단일 포트 OSFP 224 및 듀얼 포트 QSFP112 커넥터를 모두 지원합니다.
또한 16채널 보조 카드 확장을 통해 NVIDIA Socket Direct를 지원합니다.
Bluefield-3 DPU:
Bluefield-3 DPU는 400Gb/s 이더넷 또는 NDR 400Gb/s InfiniBand 네트워크를 통해 연결됩니다.
소프트웨어 정의 네트워킹, 스토리지, 보안 및 관리 기능의 부담을 덜어주고, 가속화하고, 격리합니다.
결과적으로 데이터 센터 성능, 효율성 및 보안이 크게 향상됩니다.

각 스위치 트레이에는 2개의 NVLink 스위치 칩이 포함되어 있습니다.
각 개별 스위치 칩은 1.8개의 인터페이스를 지원하며 단일 인터페이스는 XNUMXTB/s 전송 속도를 달성합니다.
스위치 트레이는 총 144개의 NVLink 포트(100GB)를 제공하여 전체 대역폭이 14.4TB/s입니다.
72개의 스위치 트레이를 사용하면 각각 18개의 NVLink 포트(총 1296개의 NVLink 포트)가 있는 XNUMX개의 Blackwell GPU를 완전히 연결할 수 있습니다.

내부 캐비닛 연결의 경우:
컴퓨팅 트레이와 스위치 트레이는 5세대 NVLink를 통해 연결됩니다.
1.8세대 NVLink의 양방향 대역폭은 14TB/s로 이전 세대의 5배, PCIe GenXNUMX 대역폭의 XNUMX배 이상입니다.
이 1.8TB/s GPU-GPU 통신은 AI 및 고성능 컴퓨팅에서 GPU 확장을 가능하게 합니다.
컴퓨팅 트레이 내에서 Superchip 내부 GPU 및 CPU는 NVLink 칩 간 통신(양방향 대역폭 900GB/s)을 통해 연결됩니다.

캐비닛 내 연결(단일 랙 내):
최대 72개의 GPU로 구성하는 경우 단일 랙 내에서 권장되는 솔루션은 구리 케이블(NVLink)을 사용하는 것입니다. GB200의 향상된 칩 밀도와 효율적인 액체 냉각을 통해 더 작은 공간에 더 많은 GPU를 배치할 수 있으므로 구리 케이블은 캐비닛 내 연결을 위한 비용 효율적인 선택이 됩니다. 그러나 장거리 전송 손실은 향후 반복에 대한 우려로 남아 있습니다.
GPU 수가 72개를 초과하면 단일 레이어 네트워크로는 충분하지 않습니다. 상위 계층 네트워크 구조로의 업그레이드가 필요합니다. 단일 NVLink 및 InfiniBand(IB) 네트워킹의 두 가지 옵션을 사용할 수 있습니다.
단일 NVLink 구성:
72개 이상 576개 미만의 GPU를 연결하는 경우 All-NVLink 클러스터 아키텍처를 사용하는 것이 좋습니다. GPU 대 광학 모듈 비율은 1:9입니다.
단일 랙 이상의 확장성을 위해 권장되는 접근 방식은 듀얼 랙 NVL72 구성입니다. 각 랙에는 18개의 컴퓨팅 트레이와 9개의 스위치 트레이가 포함되어 있습니다. 특히 듀얼 랙 버전에서는 각 컴퓨팅 트레이에 Grace Blackwell Superchip(Blackwell GPU 2개 + Grace CPU 1개)만 장착되어 있습니다. 스위치 트레이의 내용은 단일 랙 버전과 듀얼 랙 버전 모두에서 일관되게 유지됩니다.
36개의 Blackwell GPU가 18개의 NVSwitch 칩(총 648개 포트)에 완전히 연결되어 있는 576-GPU 클러스터는 16개의 이중 행 캐비닛에 걸쳐 있습니다. 이로 인해 단일 방향 속도가 10,368GB/s(양방향 50GB/s)인 경우 누적 요구 사항은 100개 포트입니다. L1~L2 네트워크 계층이 1.6T 광 모듈(200GB/s)을 사용한다고 가정하면 5,184개의 1.6T 광 모듈이 필요합니다. GPU 대 광학 모듈 비율은 1:9입니다.
InfiniBand(IB) 구성:
원하는 GPU 수가 72개를 초과하는 경우 IB 네트워킹을 고려하십시오. 최신 NVIDIA Quantum-X800 Q3400 스위치를 사용하면 포트 수에 따라 다양한 네트워크 계층의 최대 GPU 용량이 결정됩니다.
NVIDIA Quantum-2와 비교 QM9700 Quantum-X64 Q400은 800개의 3400G 포트만 제공하지만, 144개의 800G 포트를 제공하여 최대 (144^2)/2 = 10,368개의 상호 연결된 GPU를 허용합니다.
SemiAnalytic 예측에 따르면 GPU 대 1.6T 광학 모듈 비율은 2.5계층 네트워크의 경우 약 2이고 3.5계층 네트워크의 경우 약 3입니다.
관련 상품:
-
NVIDIA MMA4Z00-NS400 호환 400G OSFP SR4 플랫 탑 PAM4 850nm 30m on OM3/50m on OM4 MTP/MPO-12 다중 모드 FEC 광 트랜시버 모듈 $550.00
-
NVIDIA MMA4Z00-NS-FLT 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $650.00
-
NVIDIA MMA4Z00-NS 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $650.00
-
NVIDIA MMS4X00-NM 호환 800Gb/s 트윈 포트 OSFP 2x400G PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $900.00
-
NVIDIA MMS4X00-NM-FLT 호환 800G 트윈 포트 OSFP 2x400G 플랫 탑 PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $900.00
-
NVIDIA MMS4X00-NS400 호환 400G OSFP DR4 플랫 탑 PAM4 1310nm MTP/MPO-12 500m SMF FEC 광 트랜시버 모듈 $700.00
-
Mellanox MMA1T00-HS 호환 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 광 트랜시버 모듈 $149.00
-
NVIDIA MCA7J60-N004 호환 4m(13피트) 800G 트윈 포트 OSFP - 2x400G OSFP InfiniBand NDR 브레이크아웃 활성 구리 케이블 $800.00
-
NVIDIA MCP7Y60-H01A 호환 1.5m(5피트) 400G OSFP - 2x200G QSFP56 패시브 직접 연결 케이블 $116.00
-
Mellanox MCP1600-E00AE30 호환 0.5m InfiniBand EDR 100G QSFP28 - QSFP28 구리 직접 연결 케이블 $25.00
-
NVIDIA Mellanox MCX653106A-ECAT-SP ConnectX-6 InfiniBand/VPI 어댑터 카드, HDR100/EDR/100G, 듀얼 포트 QSFP56, PCIe3.0/4.0 x16, 긴 브래킷 $828.00
-
NVIDIA Mellanox MCX653105A-ECAT-SP ConnectX-6 InfiniBand/VPI 어댑터 카드, HDR100/EDR/100G, 단일 포트 QSFP56, PCIe3.0/4.0 x16, 긴 브래킷 $965.00