NVIDIA HGX B200 및 액체 냉각 솔루션에 대한 생각

NVIDIA HGX B200은 Blackwell GPU 아키텍처를 기반으로 하는 NVIDIA의 최신 고성능 컴퓨팅 플랫폼입니다. 뛰어난 컴퓨팅 성능과 에너지 효율성을 제공하도록 설계된 여러 가지 고급 기술과 구성 요소를 통합합니다.

HGX B200 공랭식

HGX B200 공랭 모듈을 포함한 전체 시스템의 높이는 10U에 이르고, HGX B200 공랭 모듈 자체는 약 6U를 차지합니다.

Exxact TensorEX 10U HGX B200 서버

Exxact TensorEX 10U HGX B200 서버

6x 5250W 중복(3+3) 전원 공급 장치

슈퍼서버

SuperServer SYS-A22GA-NBRT(10U)6x 5250W 중복(3+3) 전원 공급 장치

OCP Global Summit 2024에서 NVIDIA HGX B200의 새로운 사진이 여러 장 공개되었습니다. NVIDIA HGX A100/H100/H200과 비교했을 때, 중요한 변화는 NVLink 스위치 칩을 한쪽이 아닌 구성 요소의 중앙으로 재배치한 것입니다. 이 변경은 GPU와 NVLink 스위치 칩 간의 최대 링크 거리를 최소화합니다. NVLink 스위치는 이전 세대의 XNUMX개에 비해 이제 XNUMX개의 칩으로만 구성되며 크기가 눈에 띄게 커졌습니다.

엣지 커넥터 근처에서 PCIe Retimer가 NVSwitch를 대체했습니다. 이러한 Retimer는 일반적으로 TDP(Thermal Design Power)가 약 10-15W이므로 더 작은 방열판을 사용합니다.

히트싱크 없는 HGX B200 메인브로드

히트싱크가 없는 HGX B200 마더보드 – 1

HGX B200 메인브로드 히트싱크 없음-2

히트싱크가 없는 HGX B200 마더보드 – 2

리타이머

HGX B200 마더보드 리타이머 칩 히트싱크

EXAMAX 커넥터 상단 표면의 실크스크린은 이것이 Umbriel GB200 SXM6 8 GPU 베이스보드이며 부품 번호는 675-26287-00A0-TS53임을 나타냅니다. 면밀히 살펴보면 Retimer 칩 제조업체는 Astera Labs입니다.

B200 부품 번호

NVIDIA HGX B200 부품 번호 정보

NVIDIA HGX B200 Astera Labs Retimer 칩 클로즈업

NVIDIA HGX B200 Astera Labs Retimer 칩 클로즈업

HGX B200 마더보드의 둘레는 방열판을 고정하고 열 재료를 부착하는 데 사용되는 검은색 알루미늄 합금 장착 프레임으로 둘러싸여 있습니다.

NVIDIA HGX B200 마더보드 히트싱크 장착 프레임

NVIDIA HGX B200 마더보드 히트싱크 장착 프레임

아래는 2024 OCP 글로벌 서밋에서 선보인 NVLink 스위치 칩의 이미지입니다.

NVIDIA HGX B200 NVLink 스위치 칩 클로즈업

HGX B200용 액체 냉각 솔루션에 대한 고려 사항

NVIDIA는 B200에 대해 두 가지 TDP(Thermal Design Power) 값을 설정했습니다. 액체 냉각의 경우 1200W, 공기 냉각의 경우 1000W입니다. 또한 B100은 이전 H700 SXM과 유사한 100W 범위를 제공하여 OEM 제조업체가 700W 공기 냉각 설계를 재사용할 수 있습니다. 더 높은 TDP 한계는 증가된 클록 주파수와 활성화된 산술 단위 수와 상관관계가 있어 성능이 향상됩니다. 실제로 B4/200W의 FP1200(Tensor Core) 성능은 20PFLOPS, B200/1000W의 경우 18PFLOPS, B100/700W의 경우 14PFLOPS입니다.

OAI 시스템은 4×2 냉각판(즉, 물 파이프) 루프를 사용하는데, 차가운 액체는 처음에 OAM 1-4 위의 냉각판으로 흘러들어 열을 흡수한 다음 약간 따뜻해진 다음 OAM 5-8 위의 냉각판을 통과합니다. 이는 공기 흐름이 두 개의 CPU의 방열판을 순차적으로 통과하는 공랭과 유사합니다.

이와 대조적으로, 8×1 냉각판 루프 레이아웃은 차가운 액체를 8개의 모든 OAM에 균등하게 분배하여 절반의 OAM에서 온도 상승을 방지하지만 추가 배관으로 인해 비용이 더 많이 발생할 가능성이 있습니다.

오엠 1.5

OAM 1.5 사양에서는 냉각판 어셈블리가 4개 병렬-2개 직렬 배열로 설명되어 있습니다.

4-병렬-2-직렬

4-병렬-2-시리즈 대 8×1 구성

엔비디아 h100 콜드 플레이트
H3C R5500 G6 H100 모듈

H3C R5500 G6 H100 모듈 액체 냉각 4-병렬-3-시리즈(병렬로 2개 GPU + 직렬로 1개 스위치)

H100 8+4(4병렬-3시리즈 구성)

위의 H100 냉각판 구성을 기반으로, B200 액체 냉각 솔루션에 대한 고려 사항은 다음과 같습니다. 8개의 GPU와 2개의 스위치는 2개의 그룹으로 나뉩니다. 각 그룹은 4개의 GPU와 1개의 스위치로 구성됩니다. 두 그룹 모두 동일한 액체 냉각 방식을 사용합니다. 각 그룹에는 냉각판을 위한 2개의 인렛 포트와 2개의 아웃렛 포트가 있습니다. 위쪽 2개의 GPU는 병렬로 연결되어 스위치와 직렬로 연결되고 아래쪽 2개의 GPU도 병렬로 연결되어 동일한 스위치와 직렬로 연결되어 스위치 냉각판에 4개의 인렛/아웃렛 포트가 생깁니다.

또는 매니폴드는 6개의 입구와 6개의 출구로 설계될 수 있으며, 여기서 4개의 입구와 출구는 8개의 GPU(4-병렬-2-시리즈 구성)에 사용되고, 나머지 2개의 입구와 2개의 출구는 각각 매니폴드에 연결된 2개의 스위치에 사용됩니다. 이 접근 방식은 배관의 라우팅 경로와 공간 제약을 신중하게 고려해야 합니다. 그러나 선택한 솔루션에 관계없이 자세한 시뮬레이션 평가와 실제 시스템 설계가 필요합니다.

코멘트 남김

위쪽으로 스크롤