NVIDIA GB200 Superchip 및 액체 냉각 서버와 캐비닛 소개

개요

NVIDIA GB200은 NVIDIA의 Blackwell 아키텍처를 기반으로 하는 고도로 통합된 슈퍼컴퓨팅 모듈입니다. 이 모듈은 두 개의 NVIDIA B200 Tensor Core GPU와 하나의 NVIDIA Grace CPU를 결합하여 전례 없는 AI 성능을 제공하는 것을 목표로 합니다.

액체 냉각을 통합하면서 다양한 산업 참여자들이 이 기술을 구현하기 위해 협력하고 있습니다. AI 생성 콘텐츠(AIGC)가 AI 컴퓨팅 칩의 전력 소비를 증가시키면서 서버에는 더 효율적인 냉각 방법이 절실히 필요하다고 생각합니다. 글로벌 AI 칩 리더인 NVIDIA(새로운 GB200에 액체 냉각 기능 포함)와 AI 서버 제조업체인 Supermicro(2 회계연도 24분기에 액체 냉각 랙을 확장할 계획)는 액체 냉각 기술을 지지하고 있습니다. 또한 국내 산업 협력이 진전되고 있으며, 2023년 50월에 2025대 통신 사업자가 액체 냉각 기술에 대한 백서를 발표하여 2년 이후까지 프로젝트 규모에서 액체 냉각을 2027% 이상 적용할 것으로 예상하고 있습니다. 요약하자면, 상류 칩 제조업체, 서버 제조업체, 하류 IDC 공급업체, 통신 사업자가 액체 냉각을 장려하고 있으며, 이는 액체 냉각 장비와 새로운 액체 냉각 데이터 센터 건설에 대한 수요를 증가시킬 것으로 예상됩니다. DellOro의 예측에 따르면 글로벌 액체 냉각 시장 규모는 XNUMX년까지 XNUMX억 달러에 달할 것으로 예상됩니다.

GH200 및 GB200 기본 소개

GH200과 GB200의 매개변수를 비교하면 GB200을 더 명확하고 직관적으로 이해할 수 있습니다.

NVIDIA가 200년에 출시한 GH2023은 H200 GPU와 Grace CPU를 결합한 것으로, Grace CPU 하나가 H200 GPU 하나에 해당합니다. H200 GPU는 최대 96GB 또는 144GB의 메모리를 가질 수 있습니다. Grace CPU와 Hopper GPU는 NVLink-C2C를 통해 상호 연결되어 있으며 대역폭은 900GB/s이고 해당 전력 소비량은 1000W입니다.

단일 NVIDIA GH200 칩의 논리 다이어그램

19년 2024월 200일, NVIDIA는 연례 GTC에서 가장 강력한 AI 칩인 GB100을 선보였습니다. H200에 비해 GB30의 컴퓨팅 파워는 100배 더 강력하며, 특정 멀티모달 작업의 경우 컴퓨팅 파워는 H25의 200배에 달할 수 있으며, 에너지 소비는 200배나 줄어듭니다. GH2과 달리 GB900은 Grace CPU 2700개와 Blackwell GPU XNUMX개로 구성되어 GPU 컴퓨팅 파워와 메모리가 두 배입니다. CPU와 GPU는 여전히 NVLink-CXNUMXC를 통해 상호 연결되어 있으며 대역폭은 XNUMXGB/s이고 해당 전력 소비는 XNUMXW입니다.

GB200
NVIDIA GB200 슈퍼칩
GB200은 전체 B200 칩을 사용합니다.

GB2700은 200W의 높은 전력 소모를 감안할 때 효율적인 냉각이 필요합니다. GB200 NVL72는 고도로 컴퓨팅 집약적인 워크로드에 적합한 다중 노드 액체 냉각 랙 스케일 확장 시스템입니다.

다양한 제조업체의 액체 냉각 서버 및 캐비닛

GB200은 주로 두 가지 캐비닛 구성으로 제공됩니다.

GB200 NVL72(10+9+8 레이아웃)

GB200 NVL36x2(5+9+4 레이아웃)

GB200 NVL72 캐비닛

GB200 NVL72 캐비닛의 총 전력 소비량은 약 120kW입니다. 표준 CPU 캐비닛은 랙당 최대 12kW를 지원하는 반면, 고밀도 H100 공랭식 캐비닛은 일반적으로 랙당 약 40kW를 지원합니다. 일반적으로 30kW를 초과하는 단일 캐비닛의 경우 액체 냉각이 권장되므로 GB200 NVL72 캐비닛은 액체 냉각 솔루션을 사용합니다.

GB200 NVL72 캐비닛은 18개의 1U 컴퓨트 노드와 9개의 NVSwitch로 구성되어 있습니다. 각 컴퓨트 노드는 높이가 1U이고 2개의 Bianca 보드를 포함합니다. 각 Bianca 보드에는 1개의 Grace CPU와 2개의 Blackwell GPU가 포함됩니다. NVSwitch 트레이에는 28.8개의 5Gb/s NVSwitchXNUMX ASIC가 있습니다.

대부분의 데이터 센터 인프라는 직접 액체 냉각(DLC)을 사용하더라도 이처럼 높은 랙 밀도를 지원할 수 없기 때문에 현재 이러한 캐비닛 구성은 거의 사용되지 않습니다.

gb200 nvl72 캐비닛

GB200 NVL36x2 캐비닛은 두 개의 상호 연결된 캐비닛으로 구성되어 있습니다. 이 구성은 GB200 랙에 가장 일반적으로 사용될 것으로 예상됩니다. 각 랙에는 18개의 Grace CPU와 36개의 Blackwell GPU가 들어 있습니다. 두 캐비닛은 비차단 전체 상호 연결을 유지하여 NVL72의 모든 72개 GPU 간 통신을 지원합니다. 각 컴퓨트 노드는 높이가 2U이고 Bianca 보드 2개가 들어 있습니다. 각 NVSwitch 트레이에는 두 개의 28.8Gb/s NVSwitch5 ASIC 칩이 있으며, 각 칩은 백플레인에 14.4Gb/s, 프런트 플레인에 14.4Gb/s를 제공합니다. 각 NVSwitch 트레이에는 18개의 1.6T 듀얼 포트 OSFP 케이지가 있으며, 한 쌍의 NVL36 랙에 수평으로 연결되어 있습니다.

GB200 NVL36x2 캐비닛

2024 타이베이 국제 컴퓨터 쇼에서 GB200 NVL72가 대중에 공개되었습니다. 대부분의 제조업체는 Wiwynn, ASRock, GIGABYTE, Supermicro, Inventec과 같은 1U 컴퓨트 노드 서버와 함께 단일 캐비닛 구성을 전시했습니다. GIGABYTE, Inventec, Pegatron도 2U 컴퓨트 노드 서버를 전시했으며 이 구성을 GB200 NVL36이라고 합니다.

다음으로, 다양한 제조업체의 액체 냉각 서버와 캐비닛을 소개해드리겠습니다.

NVIDIA

GTC 2024에서 NVIDIA는 NVLink를 통해 완전히 상호 연결된 DGX GB200 NVL72로 구성된 랙을 선보였습니다. 전체 캐비닛의 무게는 약 1.36톤(3,000파운드)입니다. 이 시스템은 NVIDIA가 2023년 XNUMX월에 전시한 Grace-Hopper Superchip 랙 시스템의 업그레이드 버전이지만 GPU 수가 두 배 이상입니다.

플래그십 시스템

플래그십 시스템은 전력 소비량이 120kW인 단일 랙입니다. 대부분의 데이터 센터는 랙당 최대 60kW를 지원할 수 있습니다. 단일 120kW 랙이나 8MW에 가까운 1랙 SuperPOD를 배치할 수 없는 경우 NVL36x2 캐비닛 구성을 사용할 수 있습니다.

NVIDIA DGX GB200 NVL72 전면

캐비닛 상단에는 52포트 Spectrum 스위치 48개(45기가비트 RJ4 포트 + 28개의 QSFP100 XNUMXGbps 집계 포트)가 있습니다. 이 스위치는 시스템을 구성하는 컴퓨트 노드, NVLink 스위치, 전원 프레임에서 다양한 데이터를 관리하고 전송합니다.

이 스위치 아래에는 캐비닛의 120개 전원 프레임 중 415개가 있으며, 나머지 60개는 하단에 있습니다. 이 전원 프레임은 60kW 캐비닛에 전기를 공급합니다. XNUMX개의 XNUMXV, XNUMXA PSU가 이 요구 사항을 충족하기에 충분하며, 설계에 일부 중복성이 내장되어 있다고 추정됩니다. 이 전원 공급 장치의 작동 전류는 XNUMXA를 초과할 수 있습니다. 각 장치는 캐비닛 뒷면의 버스 바를 통해 전원을 공급받습니다.

엔비디아 스위치

위쪽 1개의 전원 프레임 아래에는 3개의 1U 컴퓨트 노드가 있습니다. 각 노드의 전면 패널에는 XNUMX개의 InfiniBand NIC(전면 패널의 왼쪽과 중앙에 XNUMX개의 QSFP-DD 케이지)가 있어 컴퓨트 네트워크를 형성합니다. 이 시스템에는 또한 스토리지 네트워크와의 통신을 처리한다고 알려진 BlueField-XNUMX DPU가 장착되어 있습니다. 여러 관리 포트 외에도 XNUMX개의 EXNUMX.S 드라이브 트레이가 있습니다.

각 컴퓨팅 노드에는 두 개의 Grace Arm CPU가 포함되어 있습니다.

각 컴퓨트 노드에는 Grace Arm CPU가 두 개 들어 있으며, 각 Grace CPU는 두 개의 Blackwell GPU에 연결되어 있습니다. 각 노드의 전력 소비량은 5.4kW에서 5.7kW 사이이며, 대부분의 열은 DTC(Direct-to-Chip) 액체 냉각을 통해 소산됩니다.

NV스위치

GB200 프로토
NV스위치
액체 냉각

10개의 컴퓨트 노드 아래에는 9개의 NVSwitch가 있습니다. 패널의 금색 구성 요소는 스위치를 삽입하고 제거하기 위한 핸들입니다.

패널의 금색 부품은 스위치를 삽입하고 제거하기 위한 핸들입니다.

각 NVLink 스위치에는 액체 냉각 방식을 사용하는 NVLink 스위치 칩이 두 개 들어 있습니다.

스위치 내부

캐비닛 하단, 1개의 NVSwitch 아래에 XNUMX개의 XNUMXU 컴퓨트 노드가 있습니다.

캐비닛 하단, 1개의 NVSwitch 아래에 XNUMX개의 XNUMXU 컴퓨트 노드가 있습니다.

캐비닛 뒤쪽에는 블라인드 메이트 버스 바 전원 설계가 사용되며, 각 장치에 냉각 액체와 NVLink 연결을 제공하기 위한 커넥터가 함께 사용됩니다. 각 구성 요소는 블라인드 메이트 연결의 안정성을 보장하기 위해 움직일 수 있는 공간이 필요합니다.

블라인드 메이트 버스 바 전원 설계

젠슨 황에 따르면 냉각 액체는 2L/s의 속도로 랙에 유입되고, 유입 온도는 25°C, 유출 온도는 20°C를 초과합니다.

냉각액이 랙에 들어간다

NVIDIA는 캐비닛 뒷면에 구리(광섬유) NVLink를 사용하면 캐비닛당 약 20kW의 전력을 절약할 수 있다고 말합니다. 모든 구리 케이블의 총 길이는 2마일(3.2km)을 초과하는 것으로 추정됩니다. 이것이 NVLink 스위치가 캐비닛 중앙에 배치된 이유를 설명하는데, 케이블 길이가 최소화되기 때문입니다.

NVIDIA DGX GB200 NVL72 NVLink 스파인(광학 장치 없음)

슈퍼 마이크로

슈퍼마이크로 1
슈퍼마이크로 2
슈퍼마이크로 3
슈퍼마이크로 4

Supermicro NVIDIA MGX™ 시스템

1U NVIDIA GH200 Grace Hopper™ 슈퍼칩 시스템

슈퍼마이크로 5

폭스콘

18년 2024월 72일, NVIDIA의 GTC 컨퍼런스에서 Foxconn 자회사 Ingrasys는 NVIDIA의 GB200 칩을 사용하는 NVL72 액체 냉각 서버를 공개했습니다. 이 서버는 36개의 NVIDIA Blackwell GPU와 XNUMX개의 NVIDIA Grace CPU를 통합합니다.

Jensen Huang과 Foxconn은 서버 및 기타 분야에서 여러 협업을 통해 좋은 관계를 유지하고 있습니다. Foxconn의 최신 슈퍼 AI 서버인 DGX GB200은 하반기에 양산을 시작할 예정입니다. GB200 시리즈 제품은 랙 형태로 출하되며, 주문량은 최대 50,000개의 캐비닛으로 추산됩니다. Foxconn은 현재 DGX GB200 시스템 캐비닛 시리즈에서 DGX NVL72, NVL32, HGX B200의 세 가지 주요 신제품을 보유하고 있습니다. 이들은 이 플랫폼 세대 전환의 큰 수혜자입니다.

AI 랙

새로운 세대 AI 액체 냉각 랙 솔루션인 NVIDIA GB200 NVL72는 36개의 NVIDIA Blackwell 기반 GPU와 200개의 NVIDIA Grace CPU를 포함하는 72개의 NVIDIA GB36 Grace Blackwell 슈퍼칩을 결합합니다. 이들은 XNUMX세대 NVIDIA NVLink를 통해 상호 연결되어 단일 대형 GPU를 형성합니다.

NVIDIA GB200 그레이스 블랙웰
하드웨어 공장

양자 클라우드 기술(QCT)

양자 클라우드 기술(QCT)
쿨 랙

이 행사에서 QCT는 1U 모델인 QuantaGrid D75B-1U를 선보였습니다. NVIDIA GB200 NVL72 시스템 프레임워크에 따라 이 모델은 단일 캐비닛에 72개의 장치를 수용할 수 있습니다. D75B-1U에는 두 개의 GB200 Grace Blackwell Superchip이 장착되어 있습니다. QCT는 CPU가 480GB의 LPDDR5X 메모리에 액세스할 수 있고 GPU가 144GB의 HBM3e 고대역폭 메모리를 갖추고 있으며, 둘 다 콜드 플레이트 액체 냉각 액세서리를 갖추고 있다고 강조했습니다. 스토리지 측면에서 이 1U 서버는 15mm 두께의 E1.S PCIe SSD 2개와 M.2280 75 PCIe SSD 1개를 수용할 수 있습니다. PCIe 장치 확장의 경우 D5.0B-16U는 두 개의 더블 폭 전체 높이 전체 길이 인터페이스 카드와 두 개의 반 높이 반 길이 인터페이스 카드를 수용할 수 있으며, 모두 PCIe XNUMX xXNUMX을 지원합니다.

퀀타그리드 D75B-1U
퀀타그리드 D75B-1U AI

위윈

NVIDIA의 중요한 파트너인 Wiwynn은 NVIDIA GB200 NVL72 표준을 준수하는 최초의 회사 중 하나입니다. GTC 2024에서 Wiwynn은 최신 AI 컴퓨팅 솔루션을 선보였습니다. 새로 출시된 NVIDIA GB200 Grace Blackwell 슈퍼칩은 최신 NVIDIA Quantum-X800 InfiniBand 및 NVIDIA Spectrum-X800 이더넷 플랫폼을 지원합니다. 여기에는 NVIDIA GB200 NVL72 시스템으로 구동되는 새로운 랙 레벨 액체 냉각 AI 서버 랙이 포함됩니다. Wiwynn은 고속 데이터 전송, 에너지 효율성, 시스템 통합 및 고급 냉각 기술의 강점을 활용합니다. 그 목표는 데이터 센터 생태계에서 새로운 성능, 확장성 및 다양성 요구 사항을 충족하는 것입니다.

위윈 GB200 NVL72
해결책

Wiwynn은 또한 새로운 생성 AI(GenAI) 시대에 높은 컴퓨팅 파워와 효율적인 냉각 메커니즘에 대한 증가하는 수요를 충족하도록 설계된 고급 랙 레벨 액체 냉각 관리 시스템인 UMS100(Universal Liquid-Cooling Management System)을 출시했습니다. 이 혁신적인 시스템은 실시간 모니터링, 냉각 에너지 최적화, 신속한 누출 감지 및 격리를 포함한 다양한 기능을 제공합니다. 또한 Redfish 인터페이스를 통해 기존 데이터 센터 관리 시스템과 원활하게 통합되도록 설계되었습니다. 업계 표준 프로토콜을 지원하며 다양한 냉각 분배 장치(CDU) 및 사이드 캐비닛과 호환됩니다.

ASUS

Computex Taipei 2024에서 ASUS는 여러 AI 서버를 공개했습니다. 여기에는 새로운 NVIDIA Blackwell 서버인 B100, B200, GB200 서버와 AMD MI300X 서버가 포함됩니다. 또한 최대 6W CPU TDP의 Intel Xeon 500 서버와 AMD EPYC Turin 서버도 있습니다.

하이라이트는 NVIDIA GB200 NVL72 버전을 탑재한 ASUS ESC AI POD입니다.

ASUS ESC AI POD
에이수스 ESC AI POD 2
ASUS
에이수스 엔비디아 GB200 NVL72

ASUS는 또한 노드 중 하나의 모습을 선보였습니다. 1U 섀시에서 버스 전원 공급 장치와 듀얼 액체 냉각 GB200 노드를 볼 수 있습니다. 이 노드에는 냉각판으로 덮인 두 개의 GB200 Grace Blackwell Superchip이 장착되어 있습니다. 섀시 중앙에는 48볼트 DC를 12볼트 DC로 변환하여 Blackwell GPU에 전원을 공급하도록 설계된 전원 분배 보드(PDB)가 있습니다. 또한 이 컴퓨팅 슬롯에는 E1.S 폼 팩터 SSD용 스토리지 모듈과 더블 폭 전체 높이 반 길이 폼 팩터의 두 개의 BlueField-3 데이터 프로세서 시리즈 B3240 카드가 포함되어 있습니다.

배전반
내부 매니폴드
ESC AI 포드

저렴한 Arm 컴퓨팅과 NVIDIA GPU를 찾는 사용자에게는 ASUS ESC NM200-E2로 알려진 듀얼 NVIDIA Grace Hopper GH1 플랫폼이 있습니다. 두 개의 Grace Hopper CPU와 GPU 장치를 하나의 시스템으로 결합합니다.

변속기 NM2 E1

인벤 텍 (Inventec)

이 행사에서 Inventec은 Artemis 200U 및 72U 서버와 함께 캐비닛 수준의 GB1 NVL2를 선보였습니다. 이 서버에는 두 개의 GB200 Grace Blackwell Superchip이 장착되어 있습니다. ConnectX-7 400Gb/s InfiniBand 네트워크 카드및 BlueField-3 400Gb/s 데이터 프로세서.

인벤텍_1
인벤텍_6
  • 캐비닛당 120kW
  • 전원 버스 바—1400A
  • 8*33kW 전원 선반—1+1 백업
  • 액체 냉각 블라인드 플러그 + 버스 바 블라인드 플러그 + 통신 블라인드 플러그
  • "사이드 카"로 알려진 후면 캐비닛 냉각 장치

"사이드카"는 서버 캐비닛과 함께 사용하도록 설계된 액체 냉각 캐비닛으로, 오토바이의 사이드카와 유사하며 효과적인 냉각 솔루션을 제공합니다.

코멘트 남김

위쪽으로 스크롤