기존 OEM GPU 서버: Intel/AMD x86 CPU + NVIDIA GPU
2024년 이전에는 NVIDIA 자체 서버와 NVIDIA GPU가 장착된 타사 서버는 모두 x86 CPU 머신을 기반으로 했습니다. GPU는 PCIe 카드나 8카드 모듈을 통해 마더보드에 연결되었습니다.

이 단계에서 CPU와 GPU는 독립적이었습니다. 서버 제조업체는 GPU 모듈(예: 8*A100)을 구매하여 서버를 조립할 수 있었습니다. Intel 또는 AMD CPU의 선택은 성능, 비용 또는 비용 효율성 고려 사항에 따라 달라졌습니다.
차세대 OEM GPU 서버: NVIDIA CPU + NVIDIA GPU
200년 NVIDIA GH2024 칩이 출시되면서 NVIDIA의 GPU에 통합 CPU가 포함되기 시작했습니다.
- 데스크톱 컴퓨팅 시대: CPU가 주요 구성 요소였고, GPU(그래픽 카드)는 보조 구성 요소였습니다. CPU 칩은 통합 그래픽 카드라고 알려진 GPU 칩을 통합할 수 있었습니다.
- AI 데이터 센터 시대: GPU가 주요 역할을 맡았고 CPU는 보조적인 역할을 맡았습니다. GPU 칩/카드는 이제 CPU를 통합합니다.
그 결과, NVIDIA의 통합 수준이 높아졌으며 완전한 머신 또는 전체 랙을 제공하기 시작했습니다.
CPU 칩: Grace (ARM)는 ARMv9 아키텍처를 기반으로 설계되었습니다.
GPU 칩: Hopper/Blackwell/…
예를 들어 Hopper 시리즈는 처음에 H100-80GB를 출시한 후 추가 반복을 했습니다.
- H800: H100의 축소형 버전.
- H200: H100의 업그레이드 버전.
- H20: H200의 축소형 버전으로 H800에 비해 상당히 품질이 떨어집니다.
칩 제품(명명) 예
그레이스 CPU + 호퍼 200(H200) GPU
단일 보드의 GH200:

그레이스 CPU + 블랙웰 200(B200) GPU
단일 보드(모듈)에 GB200, 높은 전력 소모 및 통합 액체 냉각 기능 포함:

72개의 B200이 OEM 캐비닛 NVL72를 형성합니다.

GH200 서버의 내부 설계
GH200 칩 논리 다이어그램
CPU, GPU, RAM, VRAM을 단일 칩으로 통합

핵심 하드웨어
다이어그램에 표시된 것처럼 단일 GH200 슈퍼칩은 다음과 같은 핵심 구성 요소를 통합합니다.
- NVIDIA Grace CPU 1개
- 한 엔비디아 H200 GPU
- 최대 480GB의 CPU 메모리
- 96GB 또는 144GB의 GPU VRAM
칩 하드웨어 상호 연결
CPU는 5개의 PCIe Gen16 xXNUMX 레인을 통해 마더보드에 연결됩니다.
- 각 PCIe Gen5 x16 레인은 128GB/s의 양방향 속도를 제공합니다.
- 따라서 512개 레인의 총 속도는 XNUMXGB/s입니다.
CPU와 GPU는 NVLink® Chip-2-Chip(NVLink-C2C) 기술을 사용하여 상호 연결됩니다.
- PCIe Gen900 x5보다 16배 빠른 XNUMXGB/s
GPU 상호 연결(동일한 호스트 내부 및 호스트 간)은 18x NVLINK4를 사용합니다.
- 900GB / s
NVLink-C2C는 NVIDIA가 "메모리 일관성"이라고 부르는 것을 제공하여 메모리와 VRAM 간의 일관성을 보장합니다. 이점은 다음과 같습니다.
- 최대 624GB의 통합 메모리와 VRAM을 통해 사용자가 구분 없이 활용할 수 있어 개발자 효율성이 향상됩니다.
- CPU와 GPU 모두 CPU 및 GPU 메모리에 대한 동시적이고 투명한 액세스
- GPU VRAM은 필요할 때 CPU 메모리를 사용하여 대규모 상호 연결 대역폭과 낮은 대기 시간 덕분에 과도하게 구독될 수 있습니다.
다음으로 CPU, 메모리, GPU 등 하드웨어 구성 요소에 대해 살펴보겠습니다.
CPU 및 메모리
72코어 ARMv9 CPU
72코어 Grace CPU는 Neoverse V2 Armv9 코어 아키텍처를 기반으로 합니다.
480GB LPDDR5X(저전력 DDR) 메모리
- 최대 480GB의 LPDDR5X 메모리 지원
- CPU당 500GB/s 메모리 대역폭
저장의 맥락에서 이 속도를 이해하려면:

3가지 메모리 유형 비교: DDR 대 LPDDR 대 HBM
대부분의 서버(대부분)는 마더보드의 DIMM 슬롯을 통해 CPU에 연결된 DDR 메모리를 사용합니다. LPDDR의 1세대부터 4세대까지는 모바일 기기에서 일반적으로 사용되는 DDRXNUMX~DDRXNUMX의 저전력 버전에 해당합니다.
- LPDDR5는 DDR5와 독립적으로 설계되었으며 DDR5보다 일찍 생산되었습니다.
- CPU에 직접 납땜되어 있어 분리 및 확장이 불가능하여 비용이 증가하지만 속도는 더 빠릅니다.
- 유사한 유형은 RTX 4090과 같은 GPU에서 사용되는 GDDR입니다.
GPU 및 VRAM
H200 GPU 컴퓨팅 파워
H200 GPU의 컴퓨팅 성능에 대한 자세한 내용은 아래와 같습니다.
VRAM 옵션
두 가지 유형의 VRAM이 지원되며 다음 중에서 선택할 수 있습니다.
- 96GB HBM3
- 144GB HBM3e는 4.9TB/s 대역폭을 제공하며, 이는 H50 SXM보다 100% 더 높습니다.
변형: 전체 NVLINK 연결이 있는 GH200 NVL2
이 변형은 단일 보드에 두 개의 GH200 칩을 배치하여 CPU, GPU, RAM 및 VRAM을 두 배로 늘리고 두 칩 간의 완전한 상호 연결을 제공합니다. 예를 들어, 8개의 보드를 수용할 수 있는 서버에서:
- GH200 칩 사용시 CPU 및 GPU 수는 8 * {72 Grace CPU, 1 H200 GPU}
- GH200 NVL2 변형 사용: CPU 및 GPU 수는 8 * {144 Grace CPU, 2 H200 GPU}입니다.
GH200 & GH200 NVL2 제품 사양(컴퓨팅 파워)

NVIDIA GH200의 제품 사양이 제공됩니다. 상단 섹션에는 CPU, 메모리 및 기타 매개변수가 포함되고 GPU 매개변수는 "FP64"에서 시작합니다.
GH200 서버 및 네트워킹
PCIe 카드와 NVLINK 카드에 해당하는 두 가지 서버 사양이 있습니다.
GH200을 탑재한 NVIDIA MGX: OEM 호스트 및 네트워킹
아래 다이어그램은 단일 카드 노드의 네트워킹 방법을 보여줍니다.

- 각 노드에는 NVLINK 없이도 PCIe 카드로 작동하는 GH200 칩이 하나만 포함되어 있습니다.
- 각 노드의 네트워크 카드 또는 가속기 카드(BlueField-3(BF3) DPU)는 스위치에 연결됩니다.
- 노드 간 GPU 간에는 직접적인 연결이 없으며, 통신은 호스트 네트워크(GPU -> CPU -> NIC)를 통해 이루어집니다.
- HPC 워크로드 및 중소 규모 AI 워크로드에 적합합니다.
NVIDIA GH200 NVL32: OEM 32카드 캐비닛
32개 카드 캐비닛은 NVLINK를 사용하여 32개의 GH200 칩을 단일 논리적 GPU 모듈로 연결하므로 NVL32라는 이름이 붙었습니다.

NVL32 모듈은 기본적으로 캐비닛입니다.
- 단일 캐비닛은 19.5TB의 메모리와 VRAM을 제공합니다.
- NVLink TLB를 사용하면 모든 GPU가 캐비닛 내의 모든 메모리/VRAM에 액세스할 수 있습니다.

NVIDIA GH200 NVL32에는 확장 GPU 메모리(EGM)를 포함하여 세 가지 유형의 메모리/VRAM 액세스 방법이 있습니다.
여러 개의 캐비닛을 네트워크를 통해 상호 연결하여 클러스터를 형성할 수 있으며, 이는 대규모 AI 워크로드에 적합합니다.
관련 상품:
-
NVIDIA MMA4Z00-NS400 호환 400G OSFP SR4 플랫 탑 PAM4 850nm 30m on OM3/50m on OM4 MTP/MPO-12 다중 모드 FEC 광 트랜시버 모듈 $650.00
-
NVIDIA MMA4Z00-NS-FLT 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $850.00
-
NVIDIA MMA4Z00-NS 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $750.00
-
NVIDIA MMS4X00-NM 호환 800Gb/s 트윈 포트 OSFP 2x400G PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $1100.00
-
NVIDIA MMS4X00-NM-FLT 호환 800G 트윈 포트 OSFP 2x400G 플랫 탑 PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $1200.00
-
NVIDIA MMS4X00-NS400 호환 400G OSFP DR4 플랫 탑 PAM4 1310nm MTP/MPO-12 500m SMF FEC 광 트랜시버 모듈 $800.00
-
Mellanox MMA1T00-HS 호환 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 광 트랜시버 모듈 $200.00
-
NVIDIA MFP7E10-N010 호환 10m(33ft) 8 섬유 낮은 삽입 손실 암-암 MPO 트렁크 케이블 극성 B APC-APC LSZH 다중 모드 OM3 50/125 $47.00
-
NVIDIA MCP7Y00-N003-FLT 호환 3m(10피트) 800G 트윈 포트 OSFP - 2x400G 플랫 탑 OSFP InfiniBand NDR 브레이크아웃 DAC $275.00
-
NVIDIA MCP7Y70-H002 호환 2m(7피트) 400G 트윈 포트 2x200G OSFP - 4x100G QSFP56 패시브 브레이크아웃 직접 연결 구리 케이블 $155.00
-
NVIDIA MCA4J80-N003-FTF 호환 3m(10피트) 800G 트윈 포트 2x400G OSFP - 2x400G OSFP InfiniBand NDR 활성 구리 케이블, 한쪽 끝은 평면 상단, 다른 쪽 끝은 핀형 상단 $600.00
-
NVIDIA MCP7Y10-N002 호환 가능한 2m(7피트) 800G InfiniBand NDR 트윈 포트 OSFP - 2x400G QSFP112 브레이크아웃 DAC $200.00