심층 분석: NVIDIA GB200을 위한 컴퓨팅 파워, 액체 냉각, 네트워크 및 파워를 선택하는 방법

이름 원산지

G – 그레이스 CPU

B – 블랙웰 GPU

200 – 세대

NVL – NVlink 상호 연결 기술

72 – 72 GPU

gb200 nvl72 발표

컴퓨팅 파워 구성

각 NVL72에는 NVL18의 컴퓨팅 파워 구성의 기본 단위인 72개의 컴퓨팅 트레이가 있습니다. 각 트레이는 컴퓨팅 노드 역할을 합니다. GB200 NVL72는 Bianca 보드의 슈퍼 칩셋을 정의하는데, 각 칩셋은 하나의 Grace CPU(NV에서 ARM 아키텍처를 기반으로 개발)와 두 개의 Blackwell GPU 칩으로 구성됩니다. 각 컴퓨팅 트레이는 두 개의 슈퍼 칩셋, 즉 2개의 CPU + 4개의 GPU로 구성됩니다. NVL72의 18개 컴퓨팅 트레이는 총 18 * 4 = 72개의 GPU입니다.

1U 폼 팩터의 각 컴퓨팅 트레이는 섀시에 직접 연결됩니다. 매일 배포 및 유지 관리를 위한 최소 장치이며 각 컴퓨팅 트레이는 최대 5400W의 전력을 소모합니다.

NVL72 시스템 전체는 13.8T의 비디오 메모리를 자랑하며, 각 B200 칩은 192GB의 비디오 메모리를 포함하고 있어 H112의 100GB보다 80GB가 증가했습니다. 또한 단일 GPU 메모리 대역폭은 H3.35의 100TB/s에서 8TB/s로 업그레이드되었습니다. 이 시스템에는 17TB의 DDR5X 메모리도 포함되어 있으며, 각 Bianca 칩에는 480GB의 메모리가 장착되어 있습니다.

컴퓨팅 파워 구성

냉각 구성

H100 단계에서 각 GPU는 700W를 소모했습니다. 공기 냉각 요구 사항을 충족하고 더 나은 공기 역학적 환경을 만들기 위해 전체 시스템은 6개의 H8으로 8-100U 공간에 들어맞았습니다. B200 단계에서 각 칩은 1200W를 소모하여 더 많은 냉각 공간이 필요하므로 시스템이 10U 크기(8 * B200)로 확장되었습니다.

GB200 Bianca 보드 시나리오에서 전력 소비량이 2700W인 경우 공기 속도는 19인치 랙 내에서 효과적인 냉각을 제공하기에 충분하지 않아 액체 냉각 솔루션이 필요합니다. 이를 통해 시스템 볼륨을 1-2U 범위 내에서 제어할 수 있어 공간 활용도와 냉각 효율이 크게 향상됩니다.

  1. 서버 레벨에서: 액체 냉각은 냉각판을 통해 Bianca 보드의 CPU와 GPU의 냉각 요구 사항을 해결할 수 있습니다. 그러나 각 컴퓨팅 트레이와 NVswitch 트레이의 전면에는 여전히 네트워크 카드, PDU, 관리 카드, 하드 드라이브와 같은 많은 사용자 지정 구성 요소가 포함되어 있으며, 여전히 공기 냉각이 필요합니다. 일반적으로 컴퓨팅 트레이의 액체 대 공기 비율은 약 8.5:1.5입니다. 앞으로 CX 네트워크 카드를 기반으로 확장하는 경우 냉각판은 NIC용으로 설계될 수 있습니다.
  2. 랙 레벨에서: 현재 다양한 액체 냉각 솔루션을 사용할 수 있습니다.
  3. 오래된 공랭식 룸을 위한 개조 솔루션: RDHx와 Sidecar의 두 가지 옵션이 있으며, 전자는 30-40KW 냉각을 제공하고 후자는 70-140KW 냉각을 제공합니다. 이러한 솔루션을 사용하면 기존 공랭식 HVAC 장치를 변경하지 않고도 각 랙에 액체 냉각 시스템을 추가할 수 있으며, 냉매를 사용하여 열을 라디에이터로 전달하여 공기를 교환합니다(실내 공기 냉각 환경 유지). 최소한의 수정만 필요하므로 광범위한 파이프라인 개조가 필요하지 않습니다.
랙 내부
  • 새로운 고밀도 데이터 센터: NV72와 같은 새로운 고밀도 데이터 센터의 경우 인랙 CDU와 인로우 CDU가 주요 옵션입니다. 인랙 CDU는 랙 내부에 4U 이상의 공간이 필요하며 일반적으로 중복성 기능 없이 약 80KW의 냉각 효율을 제공합니다. 반면 인로우 CDU는 개별 랙 외부에 설치되고 여러 랙 또는 행에 대한 냉각을 제공하며 두 개의 CDU 시스템으로 구성되어 800KW-2000KW의 냉각 및 중복성을 제공합니다. NVL576 클러스터의 공식 마케팅은 인로우 솔루션을 사용합니다.
L2L 랙 내부 CDU
인라인 CDU

네트워크 구성

NVLink 네트워크

NVL72는 완벽하게 상호 연결된 NVLink 아키텍처를 특징으로 하므로 NVL72 모드에서 RDMA(IB&RoCE) 네트워크가 필요 없습니다.

NVL72 시스템은 각각 9개의 NVLink 스위치 칩을 포함하는 2개의 NVSwitch 트레이를 갖추고 있습니다. 각 칩은 4 * 1.8TB/s의 속도를 지원하여 총 7.2TB/s 용량을 제공하며, 이는 57.6Tbps로 변환됩니다. 이 용량은 인기 있는 TH5 칩의 51.2Tbps보다 약간 높습니다. 각 NVSwitch 트레이는 2 * 4 * 1.8TB/s = 14.4TB/s의 NVLink 용량을 제공합니다.

NVswitch 트레이 내부
NVswitch 트레이 내부 2개
NVswitch 트레이 전면

GB200은 NVLink 5.0을 활용하며, 각 B200 칩은 18개의 NVLink 5.0 연결을 통해 NVLink 스위치 칩에 상호 연결됩니다. 따라서 NVL72 유닛에는 72 * 18 = 1296개의 NVLink 5.0 포트가 있으며, 각 포트는 양방향 100GB/s를 제공하며, 4쌍의 차동 신호 라인으로 구성됩니다. 각 쌍은 구리 케이블로 연결되어 1296 * 4 = 5184개의 물리적 연결이 생성됩니다.

엔브링크5.0

그림에서 보듯이 GB9 NVL200 캐비닛의 모든 72개 NVSwitch 트레이는 72개 B200 칩을 연결하는 데 사용됩니다. 각 B200 칩은 단일 NVLink 18 양방향 5.0GB 연결을 통해 100개 NVSwitch 칩에 연결됩니다. 각 NVSwitch 칩은 7.2개 NVLink 72 연결에 해당하는 5.0GB 대역폭을 지원하므로 72개 B200 GPU를 배포할 수 있습니다. 더 큰 클러스터로 확장하기 위한 추가 NVLink 인터페이스는 없습니다.

GB9 NVL200 캐비닛의 모든 72개 NVSwitch 트레이는 72개의 B200 칩을 연결하는 데 사용됩니다.

GB200 NVL72 내의 NVLink 네트워크는 완전히 상호 연결된 상태를 형성하여 단일 NVSwitch 홉을 통해 72개의 B200 칩에 대한 완전한 상호 연결을 달성합니다. 각 스위치 칩에는 4개의 NVLink 포트가 있으며, 각 포트는 72개의 구리 케이블과 페어링되어 광 통신 전력 소비와 비용을 크게 줄이고 시스템당 최대 20KW를 절약합니다. NVL72의 내부 통신 구조는 다음 다이어그램에 나와 있습니다.

gb200 nvl72 아키텍처

비 NVLink 네트워크(RDMA + 고속 TCP 네트워크)

각 컴퓨트 트레이에는 OSFP 슬롯 4개와 QSFP 슬롯 2개가 포함되어 있습니다. 컴퓨트 트레이 전면 패널의 네트워크 포트 레이아웃은 아래와 같습니다.

컴퓨팅 트레이 전면 패널의 네트워크 포트 레이아웃
  1. Bluefield-2 DPU가 지원하는 3개의 QSFP 슬롯은 고성능 TCP/스토리지 네트워크 상호연결을 위한 400G/800G 포트를 제공하여 NV가 제안하는 프런트엔드 네트워크를 형성합니다.

b. CX4/CX7 8G/800TB 포트를 갖춘 1.6개의 OSFP 슬롯은 RDMA 네트워크 통신을 사용하여 GB200의 외부 확장을 지원하여 NV가 제안하는 백엔드 네트워크를 구성합니다.

설계 아키텍처, 전송 비용, 칩 성능으로 인해 NV는 현재 최대 576개 GPU에 대해 순수한 NVLink 네트워킹 솔루션을 제공하며, 이는 8GB200 NVL72 유닛과 동일합니다. AI 학습/추론 클러스터를 추가로 확장하려면 RDMA 네트워크가 필요합니다. NVLink 5.0은 GPU당 100GB/s 대역폭을 달성하며, GPU당 18개의 연결로 총 1.8TB/s 대역폭을 달성합니다. RDMA의 현재 가장 빠른 단일 포트 속도는 200GB/s(1.6Tbps)로, NVLink의 속도와 일치하지 않습니다.

전원 구성

전체 정격 전력 소비량: 이 시스템은 전체 정격 전력 소비량이 120KW입니다. 2+4(또는 4+4) 전원 선반이 있는 2N으로 구성되어 있으며 각각 33KW를 지원합니다. 각 전원 선반은 5.5개의 5KW PSU 장치를 수용하여 1+XNUMX 중복성을 제공합니다.

이 시스템의 전체 정격 전력 소비량은 120KW입니다.

전원 선반 사양: 전원 선반은 OCP의 ORv3 HPR 전원 선반을 활용하여 97.5% 이상의 전력 효율을 자랑하며, AC-DC 변환 프로세스 동안 전력 손실을 줄입니다. 또한 각 슬롯에 48V/50V 저전압 DC 출력을 사용하여 기존 12V 출력에 비해 전력 전송 손실이 낮습니다.

ORv3 HPR

랙 입력 전원 표준: 랙 입력 전원은 OCP의 ORv3 HPR 표준을 준수하며 AC 입력은 415V입니다. 각 슬롯은 하드 연결을 통해 랙의 버스바에 직접 연결됩니다.

OCP
각 슬롯은 하드 연결을 통해 랙의 버스바에 직접 연결됩니다.

AC 입력 구성: AC 입력 측에서 시스템은 ORv3 정의 7핀 커넥터를 사용합니다. 아래 다이어그램은 두 가지 다른 커넥터 표준(왼쪽은 북미, 오른쪽은 유럽)을 보여줍니다. 전원 선반의 33KW 지원을 기준으로 각 입력은 125A 차단기 표준을 준수할 가능성이 높습니다.

AC 입력 구성

상류 AC 입력 연결: AC 입력의 상류 끝은 IEC 60309-2 표준을 준수하고 IP67 등급인 표준 산업용 커넥터를 사용합니다. 이 모바일 산업용 플러그는 125A 차단기를 지원합니다. 위상 전압에 따라 3핀 125A 또는 5핀 125A 구성 중에서 선택할 수 있습니다.

코멘트 남김

위쪽으로 스크롤