Musk의 xAI 100,000 GPU 클러스터에 대한 주요 통찰력

머스크의 xAI 100,000 GPU 클러스터 홍보 영상이 최근 온라인에 공개되었습니다. Supermicro가 후원한 이 영상은 데이터 센터의 외국 전문가가 15분 동안 100,000 GPU 클러스터의 다양한 측면을 논의하는 현장 소개를 담고 있습니다. 이러한 측면에는 배포 밀도, 캐비닛 분배, 액체 냉각 솔루션, 유지 관리 방법, 네트워크 카드 구성, 스위치 사양 및 전원 공급 장치가 포함됩니다. 그러나 이 영상은 네트워크 설계, 스토리지 시스템 또는 교육 모델 진행 상황에 대해서는 많은 것을 공개하지 않았습니다. XNUMX가지 핵심 통찰력을 살펴보겠습니다!

세계 최대 규모의 AI 클러스터

대규모 클러스터 규모

일반적으로 1,000개의 GPU(128개의 H100 시스템과 동일)로 구성된 우리나라의 보다 일반적인 클러스터와 대조적으로 100,000개의 GPU 클러스터는 100배 더 크고 약 12,800개의 H100 시스템이 필요합니다. 홍보 영상은 배포가 단 122일 만에 완료되었다고 주장하며 국내 및 국제 GPU 클러스터 역량 간에 상당한 차이가 있음을 보여줍니다.

대규모 클러스터 규모

높은 계산 밀도

이 비디오에서는 H100이 4U 랙 디자인을 사용하고 각 캐비닛이 8개 시스템을 배포하여 캐비닛당 64개 GPU에 해당한다는 것을 보여줍니다. 캐비닛 한 줄에는 8개 캐비닛이 있어 행당 512개 GPU를 구성합니다. 100,000 GPU 클러스터는 약 200개 행의 캐비닛으로 구성됩니다. 국내에서는 캐비닛당 1~2개의 H100 시스템을 배치하는 것이 더 일반적이며, 각 H100 시스템은 10.2kW를 소비합니다. 8개 시스템을 배포하면 80kW를 초과하여 향후 고밀도 클러스터 배포에 대한 참조를 제공합니다.

높은 계산 밀도

콜드 플레이트 액체 냉각의 대규모 채택

액체 냉각 기술은 국내에서 수년간 개발되었지만, 대량 공급은 드뭅니다. 이 비디오는 100,000 GPU 클러스터가 현재 주류인 콜드 플레이트 액체 냉각 솔루션을 채택하여 GPU 및 CPU 칩을 덮고 있음을 보여줍니다(메모리 및 하드 드라이브와 같은 다른 구성 요소는 여전히 공랭이 필요합니다). 각 캐비닛에는 하단에 CDU(냉각 분배 장치)가 있으며, 분산 방식으로 구성되어 있으며, 단일 오류로 인한 시스템 중단을 방지하기 위해 중복 펌프가 있습니다.

콜드 플레이트 액체 냉각의 대규모 채택

네트워크 카드 및 네트워킹 솔루션 – RoCE

비디오에서는 네트워크 토폴로지에 대한 자세한 설명은 없지만, 각 H100 기기에 Mellanox BFD-8 카드 3개(GPU 하나당 하나, 해당 BFD-3 카드 하나)와 CX7 400G 네트워크 카드 XNUMX개가 장착되어 있다고 언급합니다. 이는 현재 국내 구성과 다르며, 비디오에서는 이 설정에 대한 설명을 제공하지 않습니다. 또한, 네트워크 솔루션은 국내에서 더 널리 사용되는 IB 네트워킹 대신 RoCE를 사용하는데, 이는 RoCE의 비용 효율성과 대규모 클러스터 처리에 대한 성숙도 때문일 가능성이 높습니다. Mellanox는 여전히 선호하는 스위치 브랜드입니다.

네트워크 카드 및 네트워킹 솔루션 - RoCE

스위치 모델 및 사양

이 비디오에서는 스위치 모델을 NVIDIA Spectrum-x SN5600 이더넷 스위치로 소개합니다. 이 스위치는 64개의 800G 물리적 인터페이스를 갖추고 있으며, 이를 128개의 400G 인터페이스로 변환할 수 있습니다. 이 구성은 필요한 스위치 수를 크게 줄여 네트워크 설계의 미래 트렌드가 될 가능성이 있습니다.

스위치 모델 및 사양

GPU 서버를 위한 모듈식 유지 관리

우리 모두는 H100 GPU의 고장률이 일반 용도 서버보다 훨씬 높아 교체 및 수리가 매우 어렵다는 것을 알고 있습니다. 이 비디오에서는 GPU 및 CPU 모듈에 대한 서랍식 유지 관리를 지원하는 Supermicro의 4U H100 플랫폼을 선보였습니다. 이미지에서 볼 수 있듯이 전체 서버를 분해하지 않고도 쉽게 제거하고 유지 관리할 수 있는 핸들이 있어 유지 관리 효율성이 크게 향상되었습니다.

GPU 서버를 위한 모듈식 유지 관리

캐비닛 색상 표시등

이미지에서 보듯이, 파란색 효과는 장비가 정상적으로 작동하고 있음을 나타내는 동시에 강력한 기술적 느낌을 제공합니다. 캐비닛에 문제가 발생하면 표시등의 색상이 바뀌어 유지 관리 인력이 결함이 있는 캐비닛을 빠르게 식별할 수 있습니다. 최첨단 기술은 아니지만 매우 흥미롭고 실용적입니다.

캐비닛 색상 표시등

일반 용도 서버에 대한 지속적인 필요성

지능형 컴퓨팅 센터 솔루션을 설계할 때 많은 사람이 범용 서버를 간과합니다. GPU 서버가 핵심이기는 하지만 많은 보조 관리 작업은 여전히 ​​범용 서버의 지원이 필요합니다. 이 비디오는 충돌 없이 GPU 노드와 공존하는 CPU 컴퓨팅 파워를 제공하는 고밀도 1U 서버를 보여주었습니다. CPU 노드는 주로 관리 관련 비즈니스 시스템을 지원합니다.

일반 용도 서버에 대한 지속적인 필요성

저장 시스템의 중요성

비디오에서는 스토리지 시스템의 설계를 자세히 설명하지 않았지만, 지능형 컴퓨팅 센터에 필수적인 이 모듈을 간략하게 선보였습니다. 스토리지는 교육 시스템에서 데이터 스토리지를 지원하는 데 중요하며, 교육 효율성에 직접적인 영향을 미칩니다. 따라서 지능형 컴퓨팅 센터는 일반적으로 분산 파일 시스템을 구축하기 위해 고성능 GPFS 스토리지를 선택합니다.

저장 시스템의 중요성

전원 공급 보증 시스템

이 영상에는 100,000 GPU 클러스터를 위해 특별히 준비된 대형 배터리 팩이 표시되었습니다. 전원 시스템은 배터리 팩에 연결되어 클러스터에 전원을 공급하여 불안정한 전원 공급과 관련된 위험을 효과적으로 완화합니다. 많은 정보가 공개되지는 않았지만 지능형 컴퓨팅 센터 시스템에 안정적인 전원 공급이 중요하다는 점을 강조합니다.

전원 공급 보증 시스템

계속: 클러스터의 지속적인 확장

영상은 100,000만 개의 GPU 클러스터는 단지 단계일 뿐이며, 시스템 엔지니어링은 여전히 ​​진행 중이라는 내용으로 마무리되었습니다.

계속 진행 중 클러스터의 지속적인 확장

코멘트 남김

위쪽으로 스크롤