블랙웰에 액체 냉각이 충분히 효율적일까요?

AI 기술이 계속 발전함에 따라 더 많은 데이터 센터가 액체 냉각으로 전환하고 있습니다. 기존의 공기 냉각 방식에 비해 액체 냉각, 특히 직접 액체 냉각(DLC)은 훨씬 더 높은 방열 효율을 제공합니다. 액체의 열 전도도는 공기보다 50~3,000배 더 높아 상당한 열을 발생시키는 고밀도 서버 환경에서 더 나은 열 관리가 가능합니다. 또한 액체 냉각은 전체 에너지 소비를 줄일 수 있습니다. 연구에 따르면 공기 시스템에서 액체 시스템으로 전환하면 시설 전력 사용량을 27%, 전체 사이트 에너지 소비를 15.5% 줄일 수 있습니다. 액체 냉각의 또 다른 장점은 더 조용한 작동과 더 작은 물리적 공간입니다.

요약하자면, 액체 냉각 방식은 높은 에너지 효율성, 조용한 작동, 공간 절약의 장점을 자랑합니다.

CoolIT Systems 액체 냉각 솔루션

2001년에 설립된 CoolIT Systems(CoolIT)는 원래 데스크톱 게임 산업을 위한 직접 액체 냉각 제품을 설계하고 배포했습니다. 2014년에 이 회사는 데이터 센터와 서버 OEM을 위한 제품을 개발하기 시작했으며, 현재는 직접 액체 냉각 솔루션의 선도적 공급업체로 간주됩니다. 캐나다 캘거리에 본사를 둔 CoolIT은 캐나다와 중국에 제조 시설을 두고 있습니다. 특히 CoolIT은 세계에서 가장 빠른 슈퍼컴퓨터라고 주장되는 El Capitan에 액체 냉각 지원을 제공합니다.

CoolIT은 El Capitan에 대한 액체 냉각 지원을 제공합니다.

최근 Blackwell 과열에 대한 보고가 있는 가운데 CoolIT Systems는 세계에서 가장 높은 밀도의 액체-액체 냉각수 분배 장치(CDU)인 CHx1000을 출시한다고 발표했습니다. 임무 수행에 중요한 애플리케이션을 위해 특별히 설계된 CHx1000은 NVIDIA Blackwell 플랫폼과 액체 냉각이 필요한 기타 까다로운 AI 워크로드를 냉각하도록 설계되었습니다.

CoolIT 시스템

CoolIT의 최고운영책임자(COO) 패트릭 맥긴에 따르면, CHx1000은 20년 이상의 DLC 혁신과 선도적인 프로세서 제조업체 및 하이퍼스케일 기업과의 협업을 활용하여 1000°C의 접근 온도에서 분당 최대 1.5리터/킬로와트(LPM/kW)의 유량으로 3kW의 냉각 용량을 제공합니다.

CHx1000 액체-액체 CDU는 처음에 전례 없는 200개의 NVIDIA GB72 NVL200 플랫폼 랙을 냉각하여 더 높은 열 밀도를 가진 미래의 AI 칩과 서버에 충분한 성능을 제공합니다. NVIDIA GB72 NVL30는 이전 모델보다 25배 더 빠른 추론 성능과 XNUMX배 더 높은 에너지 효율을 제공하여 대규모 LLM 애플리케이션에 적합합니다.

인로우 유지 관리를 위해 설계된 CHx1000은 작동을 중단하지 않고도 전면 및 후면 접근 및 현장 교체 가능한 펌프, 필터 및 센서를 갖추고 있습니다. 높은 신뢰성 설계에는 스테인리스 스틸 파이프, 내장형 25미크론 필터 및 최고 등급의 습윤 재료가 포함됩니다. 지능형 제어는 냉각수 흐름을 칩의 정확한 온도, 흐름 및 압력에 맞게 동적으로 조정합니다. 이 장치는 10인치 터치스크린이나 Redfish, SNMP, TCP/IP, Modbus와 같은 프로토콜을 통해 원격으로 제어할 수 있습니다.

CHx1000

슈퍼마이크로 직접 액체 냉각

Supermicro는 NVIDIA Blackwell GPU를 액체 냉각 랙 구성에 통합한 SuperCluster 솔루션을 출시했습니다. 이 설정은 GPU 컴퓨팅 밀도를 향상시키고 수직 냉각수 분배 매니폴드 및 최적의 열 관리를 위한 개선된 냉각판과 같은 고급 기능을 포함합니다. 이 설계는 효율성을 높이고 운영 비용을 줄여 대규모 AI 배포에 적합합니다.

올해 Computex에서 SuperMicro는 HGX B10 기반 시스템을 위한 4U 공랭 및 200U 액랭 장치를 포함하여 Nvidia의 Blackwell GPU에 최적화된 시스템을 발표했습니다. 이 회사는 또한 공랭 HGX B100 시스템과 Nvidia NVLink 스위치를 통해 상호 연결된 200개의 GPU가 포함된 GB72 NVL72 랙을 개발하고 있습니다. 또한 SuperMicro는 Intel의 Xeon 6 기반 시스템을 출시하기로 약속했습니다.

SuperMicro는 Intel의 Xeon 6 기반 시스템 출시를 약속했습니다.

Super-micro의 액체 냉각 랙 솔루션은 다음을 포함하여 내부적으로 설계된 여러 구성 요소로 구성됩니다.

  1. 냉각수 분배 장치(CDU): 이 장치에는 냉각수를 CPU와 GPU를 냉각하는 냉각판으로 순환시키는 펌핑 시스템이 포함되어 있습니다. Supermicro의 CDU는 핫스왑이 가능하고 중복된 펌핑 모듈 100개와 전원 모듈을 통합하여 거의 100% 가동 시간을 보장합니다. 최대 XNUMXkW의 냉각 용량을 갖추고 있어 매우 높은 랙 밀도를 실현할 수 있습니다. CDU는 또한 WebUI를 통해 액세스하여 랙 작업을 모니터링하고 제어할 수 있는 사용하기 쉬운 터치스크린을 갖추고 있으며 Supermicro의 Super Cloud Composer 데이터 센터 관리 소프트웨어에 통합되어 있습니다. 이 제어 시스템은 모든 CPU와 GPU에 효율적인 냉각을 보장하면서 전력 소비를 최적화하며, 효과적인 응축 방지 전략을 통해 하드웨어 성능 저하를 방지합니다.
  2. 냉각수 분배 매니폴드(CDM): CDM은 각 서버에 냉각수를 공급하고 가열된 냉각수를 CDU로 다시 수집합니다. CDM에는 두 가지 유형이 있습니다.
  3. 수직형: 랙 뒤쪽에 배치된 이 매니폴드는 호스를 통해 CDU에 직접 연결됩니다. 랙 뒤쪽에 입구 및 출구 호스가 있는 시스템의 냉각판에 냉각수를 공급합니다.
  4. 수평형: 1U 랙 공간 내의 랙 앞쪽에 위치한 이 매니폴드는 뒷면의 수직 매니폴드를 랙 앞쪽 시스템(예: SuperBlade 및 8U GPU 서버)의 냉각판에 연결합니다.
  5. 콜드 플레이트: 콜드 플레이트는 CPU와 GPU 위에 놓이며, 냉각수는 마이크로채널을 통해 흐르면서 칩을 효율적으로 냉각합니다. Supermicro의 콜드 플레이트는 칩의 핫스팟을 최소화하고 초저열 저항을 달성하도록 설계되었습니다.
고문

레노버 넵튠 액체 냉각 시스템

레노버 ThinkSystem N1380 Neptune은 고밀도 서버 랙을 효율적으로 냉각하도록 설계된 100세대 수직 액체 냉각 시스템으로, 특수 에어컨 없이도 40kW 이상의 구성을 달성합니다. 이 오픈 루프 직접 온수 냉각 시스템은 전력 소비를 크게 줄여 기존 냉각 방법보다 XNUMX% 낮습니다. 레노버의 액체 냉각 전문성은 IBM의 서버 기술을 인수하여 이 분야의 선두 주자로 자리매김한 데서 비롯됩니다.

직접 수냉 솔루션은 따뜻한 물을 재순환시켜 데이터 센터 시스템을 냉각하여 모든 서버 구성 요소를 시원하게 유지하고 전력 소모가 많은 시스템 팬의 필요성을 줄입니다. CPU 및 가속기에 최적화된 특허받은 콜드 플레이트 설계는 가속기의 냉각 용량을 극대화하여 현재 약 700W의 전력 소비를 처리하고 향후 설계는 1000W를 초과할 것으로 예상됩니다. 새로운 온수 냉각 설계(Neptune™ 온수 냉각)를 사용하면 특수 데이터 센터 에어컨 없이도 작동할 수 있습니다.

레노버 넵튠 액체 냉각 시스템

코멘트 남김

위쪽으로 스크롤