NVIDIA GH200 칩, 서버 및 클러스터 네트워킹에 대한 자세한 분석

기존 OEM GPU 서버: Intel/AMD x86 CPU + NVIDIA GPU

2024년 이전에는 NVIDIA 자체 서버와 NVIDIA GPU가 장착된 타사 서버는 모두 x86 CPU 머신을 기반으로 했습니다. GPU는 PCIe 카드나 8카드 모듈을 통해 마더보드에 연결되었습니다.

일반적인 8xA100 GPU 노드
일반적인 8카드 A100 호스트 하드웨어 토폴로지

이 단계에서 CPU와 GPU는 독립적이었습니다. 서버 제조업체는 GPU 모듈(예: 8*A100)을 구매하여 서버를 조립할 수 있었습니다. Intel 또는 AMD CPU의 선택은 성능, 비용 또는 비용 효율성 고려 사항에 따라 달라졌습니다.

차세대 OEM GPU 서버: NVIDIA CPU + NVIDIA GPU

200년 NVIDIA GH2024 칩이 출시되면서 NVIDIA의 GPU에 통합 CPU가 포함되기 시작했습니다.

  • 데스크톱 컴퓨팅 시대: CPU가 주요 구성 요소였고, GPU(그래픽 카드)는 보조 구성 요소였습니다. CPU 칩은 통합 그래픽 카드라고 알려진 GPU 칩을 통합할 수 있었습니다.
  • AI 데이터 센터 시대: GPU가 주요 역할을 맡았고 CPU는 보조적인 역할을 맡았습니다. GPU 칩/카드는 이제 CPU를 통합합니다.

그 결과, NVIDIA의 통합 수준이 높아졌으며 완전한 머신 또는 전체 랙을 제공하기 시작했습니다.

CPU 칩: Grace (ARM)는 ARMv9 아키텍처를 기반으로 설계되었습니다.

GPU 칩: Hopper/Blackwell/…

예를 들어 Hopper 시리즈는 처음에 H100-80GB를 출시한 후 추가 반복을 했습니다.

  • H800: H100의 축소형 버전.
  • H200: H100의 업그레이드 버전.
  • H20: H200의 축소형 버전으로 H800에 비해 상당히 품질이 떨어집니다.

칩 제품(명명) 예

그레이스 CPU + 호퍼 200(H200) GPU

단일 보드의 GH200:

단일 보드의 GH200
NVIDIA GH200 칩(보드) 렌더링: 왼쪽: Grace CPU 칩, 오른쪽: Hopper GPU 칩.

그레이스 CPU + 블랙웰 200(B200) GPU

단일 보드(모듈)에 GB200, 높은 전력 소모 및 통합 액체 냉각 기능 포함:

높은 전력 소모 및 통합 액체 냉각 기능
NVIDIA GB200 렌더링: 액체 냉각 모듈이 통합된 2개의 Grace CPU + 4개의 B200 GPU를 포함한 모듈입니다.

72개의 B200이 OEM 캐비닛 NVL72를 형성합니다.

72개의 B200이 OEM 캐비닛 NVL72를 형성합니다.
NVIDIA GB200 NVL72 캐비닛

GH200 서버의 내부 설계

GH200 칩 논리 다이어그램

CPU, GPU, RAM, VRAM을 단일 칩으로 통합

단일 NVIDIA GH200 칩의 논리 다이어그램
단일 NVIDIA GH200 칩의 논리 다이어그램

핵심 하드웨어

다이어그램에 표시된 것처럼 단일 GH200 슈퍼칩은 다음과 같은 핵심 구성 요소를 통합합니다.

  • NVIDIA Grace CPU 1개
  • 엔비디아 H200 GPU
  • 최대 480GB의 CPU 메모리
  • 96GB 또는 144GB의 GPU VRAM

칩 하드웨어 상호 연결

CPU는 5개의 PCIe Gen16 xXNUMX 레인을 통해 마더보드에 연결됩니다.

  • 각 PCIe Gen5 x16 레인은 128GB/s의 양방향 속도를 제공합니다.
  • 따라서 512개 레인의 총 속도는 XNUMXGB/s입니다.

CPU와 GPU는 NVLink® Chip-2-Chip(NVLink-C2C) 기술을 사용하여 상호 연결됩니다.

  • PCIe Gen900 x5보다 16배 빠른 XNUMXGB/s

GPU 상호 연결(동일한 호스트 내부 및 호스트 간)은 18x NVLINK4를 사용합니다.

  • 900GB / s

NVLink-C2C는 NVIDIA가 "메모리 일관성"이라고 부르는 것을 제공하여 메모리와 VRAM 간의 일관성을 보장합니다. 이점은 다음과 같습니다.

  • 최대 624GB의 통합 메모리와 VRAM을 통해 사용자가 구분 없이 활용할 수 있어 개발자 효율성이 향상됩니다.
  • CPU와 GPU 모두 CPU 및 GPU 메모리에 대한 동시적이고 투명한 액세스
  • GPU VRAM은 필요할 때 CPU 메모리를 사용하여 대규모 상호 연결 대역폭과 낮은 대기 시간 덕분에 과도하게 구독될 수 있습니다.

다음으로 CPU, 메모리, GPU 등 하드웨어 구성 요소에 대해 살펴보겠습니다.

CPU 및 메모리

72코어 ARMv9 CPU

72코어 Grace CPU는 Neoverse V2 Armv9 코어 아키텍처를 기반으로 합니다.

480GB LPDDR5X(저전력 DDR) 메모리

  • 최대 480GB의 LPDDR5X 메모리 지원
  • CPU당 500GB/s 메모리 대역폭

저장의 맥락에서 이 속도를 이해하려면:

최대 480GB의 LPDDR5X 메모리 지원

3가지 메모리 유형 비교: DDR 대 LPDDR 대 HBM

대부분의 서버(대부분)는 마더보드의 DIMM 슬롯을 통해 CPU에 연결된 DDR 메모리를 사용합니다. LPDDR의 1세대부터 4세대까지는 모바일 기기에서 일반적으로 사용되는 DDRXNUMX~DDRXNUMX의 저전력 버전에 해당합니다.

  • LPDDR5는 DDR5와 독립적으로 설계되었으며 DDR5보다 일찍 생산되었습니다.
  • CPU에 직접 납땜되어 있어 분리 및 확장이 불가능하여 비용이 증가하지만 속도는 더 빠릅니다.
  • 유사한 유형은 RTX 4090과 같은 GPU에서 사용되는 GDDR입니다.

GPU 및 VRAM

H200 GPU 컴퓨팅 파워

H200 GPU의 컴퓨팅 성능에 대한 자세한 내용은 아래와 같습니다.

VRAM 옵션

두 가지 유형의 VRAM이 지원되며 다음 중에서 선택할 수 있습니다.

  • 96GB HBM3
  • 144GB HBM3e는 4.9TB/s 대역폭을 제공하며, 이는 H50 SXM보다 100% 더 높습니다.

이 변형은 단일 보드에 두 개의 GH200 칩을 배치하여 CPU, GPU, RAM 및 VRAM을 두 배로 늘리고 두 칩 간의 완전한 상호 연결을 제공합니다. 예를 들어, 8개의 보드를 수용할 수 있는 서버에서:

  • GH200 칩 사용시 CPU 및 GPU 수는 8 * {72 Grace CPU, 1 H200 GPU}
  • GH200 NVL2 변형 사용: CPU 및 GPU 수는 8 * {144 Grace CPU, 2 H200 GPU}입니다.

GH200 & GH200 NVL2 제품 사양(컴퓨팅 파워)

GH200 & GH200 NVL2 제품

NVIDIA GH200의 제품 사양이 제공됩니다. 상단 섹션에는 CPU, 메모리 및 기타 매개변수가 포함되고 GPU 매개변수는 "FP64"에서 시작합니다.

GH200 서버 및 네트워킹

PCIe 카드와 NVLINK 카드에 해당하는 두 가지 서버 사양이 있습니다.

GH200을 탑재한 NVIDIA MGX: OEM 호스트 및 네트워킹

아래 다이어그램은 단일 카드 노드의 네트워킹 방법을 보여줍니다.

GH200을 탑재한 NVIDIA MGX
  • 각 노드에는 NVLINK 없이도 PCIe 카드로 작동하는 GH200 칩이 하나만 포함되어 있습니다.
  • 각 노드의 네트워크 카드 또는 가속기 카드(BlueField-3(BF3) DPU)는 스위치에 연결됩니다.
  • 노드 간 GPU 간에는 직접적인 연결이 없으며, 통신은 호스트 네트워크(GPU -> CPU -> NIC)를 통해 이루어집니다.
  • HPC 워크로드 및 중소 규모 AI 워크로드에 적합합니다.

NVIDIA GH200 NVL32: OEM 32카드 캐비닛

32개 카드 캐비닛은 NVLINK를 사용하여 32개의 GH200 칩을 단일 논리적 GPU 모듈로 연결하므로 NVL32라는 이름이 붙었습니다.

엔비디아 GH200 NVL32

NVL32 모듈은 기본적으로 캐비닛입니다.

  • 단일 캐비닛은 19.5TB의 메모리와 VRAM을 제공합니다.
  • NVLink TLB를 사용하면 모든 GPU가 캐비닛 내의 모든 메모리/VRAM에 액세스할 수 있습니다.
NVL32 모듈은 본질적으로 캐비닛입니다

NVIDIA GH200 NVL32에는 확장 GPU 메모리(EGM)를 포함하여 세 가지 유형의 메모리/VRAM 액세스 방법이 있습니다.

여러 개의 캐비닛을 네트워크를 통해 상호 연결하여 클러스터를 형성할 수 있으며, 이는 대규모 AI 워크로드에 적합합니다.

코멘트 남김

위쪽으로 스크롤