GB200 상호 연결 아키텍처 분석
NVLink 대역폭 계산
NVIDIA는 NVLink 전송 대역폭 계산과 SubLink/Port/Lane 개념에 많은 혼란을 겪고 있습니다. 일반적으로 단일 B200 칩의 NVLink 대역폭은 1.8TB/s입니다. 이는 일반적으로 메모리 대역폭 알고리즘을 사용하여 계산되며 단위는 초당 바이트(B/s)입니다. 그러나 NVLink 스위치 또는 IB/이더넷 스위치 및 네트워크 카드에 대한 관점은 초당 비트(b/s) 단위로 네트워크 대역폭을 계산하는 Mellanox의 관점입니다. NVLink 계산 방법을 자세히 설명하겠습니다. NVLink 3.0부터 4개의 차동 쌍이 "하위 링크"를 형성합니다(NVIDIA는 다소 모호한 정의로 포트/링크라는 용어를 사용하는 경우가 많습니다). 이 400쌍의 차동 신호 라인에는 수신 및 송신 방향 신호가 모두 포함되어 있습니다. 네트워크 대역폭을 계산할 때 400Gbps 인터페이스는 일반적으로 XNUMXGbps의 데이터를 동시에 전송하고 수신할 수 있는 기능을 의미합니다.
총 4쌍의 차동 신호선으로 구성되며, RX와 TX 각각 2쌍씩 구성됩니다. 네트워크 관점에서는 단방향 400Gbps 링크인 반면, 메모리 대역폭 관점에서는 100GB/s의 메모리 액세스 대역폭을 지원합니다.
NVLINK 5.0 상호 연결 대역폭
Blackwell 세대는 224G Serdes를 사용하며 하위 링크 전송 속도는 200Gbps * 4(4개 차동 쌍)/8 = 100GB/s, 단방향 네트워크 대역폭은 400Gbps입니다. B200에는 18개의 하위 링크가 있어 100GB/s * 18 = 1.8TB/s의 대역폭을 제공합니다. 이는 네트워크 관점에서 9개의 단일 방향 400Gbps 인터페이스에 해당합니다. 마찬가지로 NVSwitch 소개에서는 듀얼 200Gb/초 SerDes가 400Gbp를 구성한다고 언급합니다.
포트.
명확성을 위해 다음 용어를 정의합니다.
B200 NVLINK 대역폭은 1.8TB/s이며, 각각 18GB/s의 100개 포트로 구성되고, 224개의 차동 쌍으로 구성되며, 각 포트에는 2개의 224Gbps Serdes(4xXNUMXG PAMXNUMX는 400Gbps 포트당 단일 방향 대역폭).
NVLINK 4.0 상호 연결
Hopper와 관련하여 NVLINK 4.0은 112Gbps가 가능한 단일 차동 신호 라인과 함께 100G Serdes를 사용하므로 누적 단일 NVLINK 하위 링크는 4x100Gbps = 50GB/s가 됩니다. NVLINK 4.0을 지원하는 호퍼 제품은 서브링크(포트)가 18개이므로 H100 50대가 18GB/s * 900 = 8GB/s를 지원합니다. 4개의 카드가 있는 단일 시스템은 이미지에 표시된 대로 연결을 위해 XNUMX개의 NVSwitch를 활용할 수 있습니다.
256개 카드 클러스터를 생성하기 위해 두 번째 수준 스위치를 추가하는 것도 가능합니다.
확장 인터페이스는 다음을 사용합니다. OSFP 광학 모듈, 16개의 차동 신호 라인을 지원하여 단일 OSFP가 4개의 NVLINK 포트를 지원할 수 있습니다.
이미지의 NVLink 스위치에는 32개의 OSFP 광 모듈 커넥터가 포함되어 총 32 * 4 = 128개의 NVLINK 4 포트를 지원합니다.
GB200 NVL72
GB200 NVL72 시스템의 사양은 다음과 같습니다. 주요 초점은 NVLINK 상호 연결입니다.
각 GB200에는 72코어 Grace ARM CPU XNUMX개와 Blackwell GPU XNUMX개가 포함되어 있습니다.
전체 시스템은 컴퓨팅 트레이와 스위치 트레이로 구성됩니다. 각 컴퓨팅 트레이에는 GB200 하위 시스템 4개, 총 XNUMX개의 Blackwell GPU가 포함되어 있습니다.
각 스위치 트레이에는 72개의 NVLINK 스위치 칩이 포함되어 총 2 * 144 = 36개의 NVLINK 포트를 제공합니다. 단일 스위치 칩의 내부 구조는 상단과 하단에 7.2개의 포트가 있으며 28.8TB/s의 대역폭을 제공합니다. 네트워크 계산을 사용하면 이는 현재 선두의 51.2Tbps 스위치 칩보다 약간 적은 XNUMXTbps의 스위칭 용량에 해당하지만 이는 SHARP(NVLS) 기능의 구현 때문입니다.
전체 랙은 18개의 컴퓨팅 트레이와 9개의 스위치 트레이를 지원하여 72개의 완전히 상호 연결된 Blackwell 칩으로 NVL72 아키텍처를 구성합니다.
각 GB200 하위 시스템에는 2 * 18 = 36개의 NVLink5 포트가 있습니다. 시스템의 외부 상호 연결은 OSFP 광학 모듈을 사용하지 않고 다이어그램에 표시된 대로 직접 구리 백플레인 연결을 사용합니다.
전체 NVL72 상호 연결 토폴로지는 다음과 같습니다.
각 B200에는 18개의 NVLINK 포트가 있으며, 18개의 스위치 트레이에 9개의 NVLINK 스위치 칩이 있습니다. 따라서 각 B200의 포트는 하나의 NVSwitch 칩에 연결되어 NVSwitch당 총 72개의 포트가 됩니다. 이는 NVL72 시스템이 72개의 B200 칩을 모두 완전히 연결하는 방식입니다.
NVL576
NVL72 캐비닛에서 모든 스위치에 더 이상 더 큰 16계층 스위치 클러스터를 형성할 추가 인터페이스가 없다는 것을 알 수 있습니다. 공식 NVIDIA 이미지에서 72개의 캐비닛이 8줄로 배열되어 있으며 총 576 * XNUMX = XNUMX개의 카드 액체 냉각 클러스터이지만 카드 간의 연결 케이블은 Scale-Up NVLINK 네트워크 상호 연결보다는 Scale-Out RDMA 네트워크 상호 연결을 통해 더 많은 것으로 보입니다.
32,000개 카드 클러스터의 경우 NVL72 캐비닛, 9개 캐비닛의 한 행, 4개의 NVL72 및 5개의 네트워크 캐비닛, 18개 캐비닛의 두 행이 Sub-Pod를 형성하고 RDMA Scale-Out 네트워크를 통해 연결됩니다.
물론, 이것은 소위 NVL576이 아닙니다. NVL576이 필요한 경우, 각 72 GB200은 18개의 NVSwitch로 구성되어야 하며, 이는 단일 캐비닛에 맞지 않습니다. 우리는 공식이 NVL72의 단일 캐비닛 버전과 듀얼 캐비닛 버전이 있으며, 듀얼 캐비닛 버전에서 각 컴퓨트 트레이에는 GB200 하위 시스템이 하나만 있다고 언급한 것을 알아차렸습니다.
반면에 NVSwitch에는 다양한 구리 백플레인 연결에 맞게 맞춤화된 예비 구리 케이블 커넥터가 있다는 것을 알 수 있습니다.
이러한 인터페이스에 2계층 NVSwitch 상호 연결을 위한 구리 상호 연결 백플레인 위에 추가 OSFP 케이지가 있는지는 알 수 없지만 이 방법에는 한 가지 장점이 있습니다. 단일 캐비닛 버전은 확장이 불가능한 반면, 이중 캐비닛 버전은 다음과 같이 확장 가능합니다. 이미지에 표시됩니다.
듀얼 캐비닛 버전에는 18개의 NVSwitch 트레이가 있으며 연속적으로 상호 연결되어 NVL72를 형성할 수 있습니다. 스위치 수가 두 배로 늘어났지만 각 스위치는 향후 36카드 클러스터로 확장할 수 있도록 576개의 업링크 포트를 제공합니다. 단일 캐비닛에는 총 36*2*9 = 648개의 업링크 포트가 있으며, NVL16을 구성하려면 576개의 캐비닛이 필요하므로 총 648*16 = 10,368개의 업링크 포트가 되며 9개의 36차 계층 스위치 플레인으로 구성할 수 있습니다. , 각각 18개의 스위치 트레이로 구성된 576개의 하위 평면으로 구성됩니다. NVLXNUMX의 상호 연결 구조는 다음과 같습니다.
비즈니스 관점에서 NVL576 검토
저는 NVL576과 같은 대규모 단일 NVLink 스케일업 네트워크에 대한 고객이 실제로 있는지 회의적입니다. AWS조차도 클라우드 서비스에서 NVL72만 제공하기로 했습니다. 주요 문제는 576계층 네트워크 아키텍처의 안정성과 확장성 문제로, NVLXNUMX은 높은 시스템 복잡성으로 인해 이상적인 솔루션이 아닙니다.
한편, 차세대 대형 모델의 컴퓨팅 요구 사항을 고려할 때 메타 논문 "How to Build Low-cost Networks for Large Language Models (without Sacrificing Performance)?"라는 메타 논문이 있습니다. 이에 대해 논의합니다. 본 논문에서는 NVLink 기반 Scale-Up 네트워크를 "고대역폭 도메인(HBD)"이라고 부르며, HBD 내 최적의 카드 수를 분석합니다.
GPT-1T 모델의 경우 K=36에 비해 K>8일 때 성능 향상은 여전히 상당히 중요하지만, K>72에서 K=576으로 확장하는 데 따른 한계 이점이 시스템 복잡성 증가를 정당화하지는 않습니다. 또한 Scale-Up NVLINK 네트워크 크기가 증가함에 따라 HBD 간 RDMA 대역폭의 성능 이점이 줄어들기 시작합니다. 궁극적인 균형은 RDMA Scale-Out과 결합된 NVL72를 사용하여 32,000개 카드 클러스터를 구성하는 것입니다.
인터커넥트 시스템의 진화: Cisco 이야기
컴퓨팅/메모리 병목 현상으로 인한 분산 아키텍처
초기에 Cisco 라우터는 단일 PowerPC 프로세서를 사용하여 전달을 수행했습니다. 인터넷이 폭발적으로 증가하면서 라우팅 테이블 조회와 같은 메모리 집약적인 작업으로 인해 성능 병목 현상이 발생했습니다. 이로 인해 데이터 버스를 통해 여러 프로세서를 연결하는 프로세스 스위칭/CEF와 같은 접근 방식이 점진적으로 등장하게 되었습니다.
이러한 방법은 Pascal 세대처럼 칩이 버스를 통해 직접 상호 연결되었던 초기 NVLINK 1.0/NVLINK 2.0과 유사합니다.
스위치 패브릭의 출현
1995년 Nick Mckeown은 "기가비트 스위치 라우터를 위한 고속 스위치 백플레인"이라는 논문에서 더 큰 규모의 기가비트 라우터를 지원하기 위해 CrossBar 스위치 패브릭을 사용할 것을 제안했습니다. 이 백플레인은 나중에 Cisco의 고급 12000 시리즈 라우터가 되었습니다.
이러한 시스템의 스위치 패브릭은 NVL8~NVL72 시스템을 구축하는 오늘날의 NVSwitch 및 NVSwitch 트레이와 개념적으로 동일합니다. 단일 칩이 메모리 벽에 부딪힐 때 더 큰 규모의 시스템을 구축하기 위해 여러 칩을 상호 연결하는 것에 관한 것입니다.
중앙에 스위치 패브릭이 있고 12000개의 스위치 트레이가 있는 Cisco 9의 단일 섀시 설계는 GB200과 유사합니다. 여기서 상단과 하단에는 각각 GB8의 컴퓨팅 트레이에 해당하는 200개의 라인 카드 슬롯이 있습니다.
여기서 핵심 기술은 VOQ(Virtual Output Queuing) 설계와 iSLIP 스케줄링 알고리즘이다. 모델이 All-to-All을 실행하면 여러 B200이 동일한 B200에 동시에 쓸 수 있어 HOLB(Head-Of-Line Blocking)가 발생할 수 있습니다. 인간은 교묘하게 입력 대기열과 출력 대기열인 교차점 전후에 버퍼를 추가합니다.
안타깝게도 출력 대기열은 대역폭 활용도를 극대화할 수 있지만 N*R 속도가 필요한 반면, 입력 대기열은 R 속도로 처리할 수 있지만 HOLB 문제가 발생합니다. HOLB에 의해 제한되는 IQ 스위치의 최대 처리량은 58.6%로 계산됩니다.
IQ HOLB 문제에 대한 간단한 해결책은 각 입력 포트에 각 출력에 대한 대기열이 있는 VOQ(가상 출력 대기열)를 사용하여 R 속도 버퍼링을 유지하면서 HOLB를 제거하는 것입니다.
물론 엔비디아의 NVLINK는 크레딧 기반 설계를 사용하고 있으며, 크레딧 배분 조정은 국내 GPU 스타트업들에게 깊이 연구해볼 가치가 있는 분야입니다.
다단계 아키텍처와 광 상호 연결의 진화
NVL576은 1년에 도입된 Cisco의 CRS-2003(Carrier Routing System)과 유사합니다.
당시 Cisco는 인터넷 버블 기간 동안 막대한 대역폭 수요에 직면하여 다단계 스위칭 네트워크 시스템을 구축했습니다.
스위치 트레이를 사용하여 구성된 단일 캐비닛 내의 3단계 스위칭 네트워크는 현재 확장 불가능한 GB200 NVL72와 동일합니다. 다중 캐비닛 구조는 NVL576에 해당합니다. 당시 Cisco는 16개의 라인 카드가 있는 단일 캐비닛에서 8개의 패브릭 캐비닛 + 72개의 라인 카드 캐비닛이 있는 시스템으로 확장하여 대규모 1152 라인 카드 클러스터를 구축할 수 있었습니다. Cisco의 내부 연결에도 광학 상호 연결이 사용됩니다.
섀시 간 광 커넥터가 이미지에 표시되어 있습니다.
이 기간 동안 현재 NVIDIA의 수석 과학자인 Bill Dally가 Avici를 설립하고 3D-Torus 상호 연결을 사용하여 테라비트 규모의 라우터를 구축했다는 점은 주목할 가치가 있습니다.
3D-Torus 상호 연결은 Google의 TPU를 연상시킵니다. 나중에 Huawei OEM은 Avici의 시스템을 NE5000으로 브랜드화한 후 핵심 라우터 제품인 NE5000E를 개발했습니다. 동시에 Juniper의 등장은 코어 라우터 도메인 분야에서 Cisco에도 상당한 압력을 가하고 있습니다. 아마도 NVIDIA의 지배력은 앞으로 더 많은 도전에 직면하게 될 것입니다.
한편, MEMS 기반의 광스위치도 이 시기쯤에 도입되었는데, 이는 현재 구글이 광스위치를 사용하는 방식과 어느 정도 유사한 점이 있는 것으로 보인다.
NVIDIA의 미래 진화
상호 연결 시스템에 관한 2023 HOTI 컨퍼런스에서 Bill Dally는 "가속기 클러스터, 새로운 슈퍼컴퓨터"라는 제목의 기조연설을 통해 온칩 네트워크 및 상호 연결 시스템의 관점에서 세 가지 주요 주제를 논의했습니다.
토폴로지 :
- CLOS/3D-토러스/잠자리
- 라우팅 :
- 흐름 제어
장치 연결마다 대역폭과 전력 소비가 다릅니다.
전력, 비용, 밀도, 연결거리 등을 고려하여 어떻게 유기적으로 결합할 것인가가 과제이다.
광 상호 연결
이러한 치수 측정을 통해 Co-Package Optic DWDM은 실행 가능한 선택이 됩니다.
광 상호 연결 구축을 위한 시스템 개념 다이어그램은 다음과 같습니다.
궁극적인 목표는 대규모 광 인터커넥트 시스템을 구축하는 것입니다.
이러한 측면에서 보면 Cisco가 구축한 멀티 섀시 CRS-1 시스템과 거의 동일하다는 것을 알 수 있습니다. 여기서 GPU Rack은 Cisco LineCard Chassis에 해당하고 Switch Rack은 Cisco의 Fabric Chassis에 해당합니다. 둘 다 광학 상호 연결과 DWDM 기술을 사용하여 연결 복잡성을 줄이고 대역폭을 늘립니다.
칩 아키텍처 수준에서 광학 엔진은 상호 연결을 위한 칩렛으로 사용됩니다.
인터커넥트 구조의 경우 Dragonfly 토폴로지를 채택하고 OCS 광 스위치를 활용하는 경향이 더 큽니다.
흐름 제어 알고리즘 및 혼잡 제어와 관련하여 Bill은 HOMA/NDP 및 적응형 라우팅과 유사한 메커니즘에 대해 논의했습니다. 새로운 스위치 기능이 필요하지 않은 더 나은 MultiPath CC 알고리즘이 있으므로 그렇게 복잡할 필요는 없습니다.
알고리즘 및 특수 하드웨어 통합
반면 Transformer는 출시된 지 7년이 되었으며 계산 바인딩과 메모리 바인딩 연산자의 균형을 맞추는 탁월한 알고리즘입니다. 그런데 업계에 이보다 더 정교한 알고리즘이 있을까요?
Monarch Mixer와 같은 Sparse Attention 모델과 Mamba/RMKV와 같이 Attention이 필요하지 않은 모델과 카테고리 이론, 대수기하학, 대수적 위상수학을 기반으로 한 알고리즘이 연구되고 있습니다. Blackwell에서 지원하는 FP4/FP6과 향후 Log8과 같은 다양한 숫자 형식도 있습니다.
역사적으로 Cisco는 단일 칩 성능을 점진적으로 개선하고 상호 연결 구조의 복잡성을 극복하기 위해 알고리즘과 특수 하드웨어에 의존하기도 했습니다. 그들은 일반 DRAM에서 대규모 라우팅 테이블 조회를 위해 TreeBitMap과 같은 알고리즘을 사용했습니다.
멀티 코어 및 온칩 네트워크의 개발로 고성능 SPP/QFP/QFA 네트워크 프로세서를 구축했으며 이러한 기술은 AWS Nitro, NVIDIA BlueField 및 Intel IPU DPU 프로세서에서 다시 등장했습니다.
결론
FibeMall은 최신 Blackwell GPU의 상호 연결 아키텍처를 분석하고 "NVIDIA의 Cisco Moment"에서 논의된 것처럼 단일 칩 성능이 두 가지 기술 물결 동안 폭발적인 수요를 따라잡을 수 없을 때 Cisco와 NVIDIA가 직면한 분산 시스템 구성 및 상호 연결 아키텍처를 탐색했습니다. 또한 Bill Dally의 2023 HOTI 기조연설을 분석하여 NVIDIA의 향후 개발 경로에 대한 명확한 시각을 제공했습니다.
그러나 우리는 또한 인터넷 거품이 정점에 달했을 때 Juniper 및 Avici와 같은 회사가 Cisco의 도전자로 등장했으며 NVIDIA도 전문 시장을 장악하기 전에 그 시대의 도전자로 3Dfx를 물리쳤다는 점에 주목합니다. 모든 시대에는 기회가 있으며, 승자는 단순히 더 많은 리소스를 축적하는 사람이 아니라 알고리즘과 컴퓨팅 성능을 하드웨어와 결합하여 혁신하는 사람입니다.
도전자 입장에서 보면 CUDA 생태계를 제외하고 컴퓨팅 코어 자체의 난이도는 그리 크지 않습니다. 최근 한국과 일본에서 짐 켈러를 비롯한 일부 HBM 업체들이 활발히 활동하고 있는데, BUDA+RISC-V+HBM이 새로운 신흥 세력으로 거듭날지 귀추가 주목된다.
IB/NVLINK 상호 연결 시스템을 대체한다는 관점에서 볼 때 이더넷에는 이미 51.2Tbps 스위치 칩이 있으며, SHARP와 같은 네트워크 내 컴퓨팅을 지원하는 HBM에 대한 고속 이더넷 연결을 기반으로 하는 통신 프로토콜은 이미 XNUMX년 전에 NetDAM에서 설계되었습니다.
관련 상품:
- OSFP-800G-FR4 800G OSFP FR4(회선당 200G) PAM4 CWDM 이중 LC 2km SMF 광 트랜시버 모듈 $5000.00
- OSFP-800G-2FR2L 800G OSFP 2FR2(라인당 200G) PAM4 1291/1311nm 2km DOM 이중 LC SMF 광 트랜시버 모듈 $4500.00
- OSFP-800G-2FR2 800G OSFP 2FR2(라인당 200G) PAM4 1291/1311nm 2km DOM 듀얼 CS SMF 광 트랜시버 모듈 $4500.00
- OSFP-800G-DR4 800G OSFP DR4(라인당 200G) PAM4 1311nm MPO-12 500m SMF DDM 광 트랜시버 모듈 $3500.00
- NVIDIA MMS4X00-NM-FLT 호환 800G 트윈 포트 OSFP 2x400G 플랫 탑 PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $1200.00
- NVIDIA MMA4Z00-NS-FLT 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $850.00
- NVIDIA MMS4X00-NM 호환 800Gb/s 트윈 포트 OSFP 2x400G PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $1100.00
- NVIDIA MMA4Z00-NS 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $750.00
- NVIDIA MMS1Z00-NS400 호환 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12(FEC 광 트랜시버 모듈 포함) $800.00
- NVIDIA MMS4X00-NS400 호환 400G OSFP DR4 플랫 탑 PAM4 1310nm MTP/MPO-12 500m SMF FEC 광 트랜시버 모듈 $800.00
- NVIDIA MMS4X50-NM 호환 OSFP 2x400G FR4 PAM4 1310nm 2km DOM 이중 이중 LC SMF 광 트랜시버 모듈 $1350.00
- OSFP-XD-1.6T-4FR2 1.6T OSFP-XD 4xFR2 PAM4 1291/1311nm 2km SN SMF 광 트랜시버 모듈 $17000.00
- OSFP-XD-1.6T-2FR4 1.6T OSFP-XD 2xFR4 PAM4 2x CWDM4 2km 듀얼 듀플렉스 LC SMF 광 트랜시버 모듈 $22400.00
- OSFP-XD-1.6T-DR8 1.6T OSFP-XD DR8 PAM4 1311nm 2km MPO-16 SMF 광 트랜시버 모듈 $12600.00