NVIDIA GB200 출시, 그리고 GB300이 찾아옵니다!

대만의 Economic Daily News에 따르면 NVIDIA는 내년 300월 GTC 컨퍼런스에서 차세대 GBXNUMX AI 서버 제품군을 출시할 계획입니다.

최근 Foxconn과 Quanta는 GB300의 연구 개발을 적극적으로 시작하여 기회를 일찍 잡았습니다. NVIDIA는 GB300 주문 구성을 예비적으로 결정했으며 Foxconn이 가장 큰 공급업체로 남아 있는 것으로 알려졌습니다. GB300은 글로벌 경쟁사보다 앞서 내년 상반기에 시장에 출시될 예정입니다. 업계 소식통에 따르면 Quanta와 Inventec도 NVIDIA의 GB300 AI 서버에 대한 주요 파트너입니다. Quanta는 주문 점유율에서 Foxconn에 이어 200위를 차지했고 Inventec은 GB300에 비해 주문 점유율을 크게 늘려 차세대 GBXNUMX 기회를 활용할 수 있는 위치에 있습니다.

그래픽 카드: B200 → B300

올해 300월, NVIDIA는 모든 Blackwell Ultra 제품의 브랜드를 CoWoS-L 기술을 사용하는 BXNUMX 시리즈로 변경해 고급 패키징 솔루션에 대한 수요를 촉진했습니다.

NVIDIA는 모든 Blackwell Ultra 제품을 B300 시리즈로 리브랜딩했습니다.

성능 향상

새로운 B300 GPU는 기존 B1.5에 비해 부동 소수점 계산 성능(FP4)이 200배 향상되었습니다.

TDP 열 전력

B300 GPU의 전력 소비량은 최대 1400W에 달할 수 있는 반면, B1000의 전력 소비량은 약 200W로 상당한 도약을 이룹니다. 이 상당한 전력을 유지하려면 전원 공급 장치와 냉각 시스템 모두 따라잡아야 합니다.

업그레이드된 액체 냉각 시스템

액체 냉각 플레이트 + 향상된 UQD 퀵 체인지 커넥터: 1400W의 전력 소비로 인해 공기 냉각이 부족합니다. 따라서 GB300은 액체 냉각 플레이트를 사용하고 UQD 퀵 체인지 커넥터를 업그레이드하여 효율성과 안정성을 개선했습니다.

액체 냉각

새로운 캐비닛 디자인: 캐비닛 레이아웃, 파이프라인 디자인, 냉각 채널이 재설계되어 수냉 플레이트, 액체 냉각 시스템, UQD 퀵 커넥트 구성 요소의 수가 늘어났습니다.

HBM3e 메모리에 대한 중요한 업그레이드

192GB → 288GB: GB192 시대의 3GB HBM200 메모리를 기억하시나요? 이제 각 B300 GPU는 무려 288GB의 HBM3e를 자랑합니다! 이 상당한 증가는 본질적으로 광범위한 모델 학습에 대한 녹색 신호이며, 수천억 개의 매개변수가 있는 대형 모델에 매우 매력적입니다.

8개 레이어 → 12개 레이어 스태킹: 이전 8개 레이어 스택과 비교했을 때, 새로운 구성은 12개 레이어 스택을 사용합니다. 용량을 늘릴 뿐만 아니라 대역폭도 크게 향상시킵니다. 이러한 높은 병렬성 덕분에 병목 현상 없이 데이터가 원활하게 흐를 수 있습니다.

네트워크 및 전송

네트워크 카드: ConnectX 7 → ConnectX 8: GB300은 ConnectX 7 네트워크 카드에서 ConnectX 8로 업그레이드되었습니다. 이 업그레이드는 대역폭, 지연 시간 및 안정성에 대한 포괄적인 개선을 가져와 대규모 클러스터에서 원활한 데이터 전송을 보장합니다.

광 모듈: 800G → 1.6T: 800G에서 1.6T로 업그레이드하는 것은 XNUMX단에서 XNUMX단으로 전환하는 것과 비슷합니다. HPC 및 AI 훈련과 같은 대규모 데이터 상호 작용이 포함된 시나리오의 경우 이러한 대역폭 증가는 생명줄입니다.

전원 관리 및 안정성

새로운 추가 사항: 표준화된 커패시터 트레이 및 BBU: GB300 NVL72 캐비닛은 이제 옵션인 배터리 백업 장치(BBU) 시스템이 있는 표준화된 커패시터 트레이를 갖추고 있습니다. 각 BBU 모듈의 가격은 약 300달러이고, 전체 GB300 시스템에는 약 5개의 BBU 모듈이 필요하며, 총액은 약 1500달러입니다. 비용이 많이 들 수 있지만, 고부하, 고전력 AI 환경에서 갑작스러운 정전을 피하기 위한 중요한 투자입니다.

슈퍼커패시터에 대한 높은 수요: 각 NVL72 랙은 즉각적인 전류 서지를 처리하고 시스템을 보호하기 위해 300개 이상의 슈퍼커패시터가 필요합니다. 각각 20-25달러의 가격으로, 이는 상당한 비용을 나타내지만 전력을 많이 소모하는 GB300에는 필요합니다.

주요 메모리 혁명

LPCAMM이 서버 단계에 진입: NVIDIA가 처음으로 서버 컴퓨팅 보드에 LPCAMM(Low Power CAMM) 표준을 도입했습니다. 이전에는 가벼운 노트북에서 볼 수 있었던 이 "작은 녀석"이 이제 서버의 고부하 수요를 감당하며 뛰어난 성능을 입증하고 있습니다. 서버에 LPCAMM을 도입한 것은 서버를 더 "얇고 매끈하게" 만드는 추세를 시사하며, 서버 설계에서 더 유행하는 접근 방식으로 전환될 가능성을 암시합니다.

기존 DIMM을 대체하는가?: LPCAMM은 보다 컴팩트하고 에너지 효율적이며 유지 관리가 쉬운 솔루션을 제공합니다. 이는 앞으로 기존 RDIMM 및 LRDIMM을 완전히 대체하여 서버 메모리 시장에 상당한 격변을 일으킬 가능성이 있습니다. LPCAMM이 기존 DIMM을 대체한다면 서버 메모리 환경에 큰 변화를 가져올 수 있습니다.

NVIDIA GB300 "Blackwell Ultra"는 AI 컴퓨팅 파워 한계를 크게 높일 예정입니다. GPU 코어의 향상, 방대한 HBM3e 메모리 지원, 냉각 및 전력 관리의 포괄적인 업그레이드는 모두 대형 모델과 대규모 컴퓨팅이 미래의 멈출 수 없는 추세임을 나타냅니다. 또한 LPCAMM과 1.6T 네트워크 대역폭을 포함하면 클라우드 데이터 센터와 슈퍼컴퓨팅 센터의 효율성이 더욱 향상될 것입니다.

AI 컴퓨팅 파워를 위한 "군비 경쟁"이 이제 막 시작되었다는 것은 분명합니다. 하드웨어와 소프트웨어 생태계에서 선두를 차지하는 사람들이 AI 혁명의 다음 물결을 지배할 가능성이 큽니다.

코멘트 남김

위쪽으로 스크롤