NVIDIA의 Blackwell, DAC, LACC 및 1.6T OSFP-XD 개발 발표

차세대 Blackwell 플랫폼

19년 2024월 XNUMX일, NVIDIA는 GTC에서 차세대 Blackwell 아키텍처 플랫폼을 공개했습니다.

이 새로운 플랫폼에는 새로운 AI 칩 GB200, 576세대 Transformer 엔진(독점 Blackwell Tensor 코어 기술을 활용하여 AI 추론 기능 및 모델 크기를 두 배로 늘림), 9세대 NVLink 솔루션(수조 개의 매개변수 및 복잡한 AI 모델을 가속화하도록 설계됨)이 포함됩니다. , 최대 XNUMX개 GPU 상호 연결 가능, GPU 처리량 XNUMX배 증가), RAS(신뢰성, 가용성 및 서비스 가능성) 엔진(잠재적 장애 조기 식별, 다운타임 감소, 지능형 복구 및 유지 관리 기능 강화), 지능형 보안 서비스( 전반적인 성능 저하 없이 AI 모델과 고객 데이터를 보호하고, 의료 및 금융과 같이 데이터 개인 정보 보호 요구 사항이 높은 산업에 맞춰진 차세대 기본 인터페이스 암호화 프로토콜을 지원합니다.

그림 1: NVIDIA, 차세대 Blackwell 플랫폼 공개

NVIDIA, 차세대 Blackwell 플랫폼 공개
출처: https://www.nvidia.com

NVIDIA의 1.8세대 NVLink는 단일 코어 Blackwell GPU당 총 대역폭이 18TB/s로 대규모 멀티 GPU 클러스터의 확장성을 크게 향상시킵니다. 각 Blackwell Tensor Core GPU는 최대 100개의 NVLink 1.8GB/s 연결을 지원하여 최대 200TB/s의 총 대역폭을 제공합니다. 이 대역폭 성능은 NVIDIA의 이전 세대 H14 제품의 두 배, PCIe 5.0 기술의 200배입니다. GB72 NVLXNUMX 서버 플랫폼은 NVIDIA의 최신 NVLink 기술을 활용하여 세계에서 가장 복잡한 대규모 AI 모델에 더 큰 확장성을 제공합니다.

그림 2: NVIDIA의 5세대 NVLink 네트워크 아키텍처의 성능

NVIDIA의 5세대 NVLink 네트워크 아키텍처의 성능
출처: https://www.nvidia.com

수천 개의 카드 클러스터를 지원하는 NVIDIA의 새로운 IB 스위치 플랫폼 Quantum-X800

NVIDIA는 세계 최초의 엔드투엔드 솔루션을 출시했습니다. 800G 인피니밴드 800조 매개변수 규모의 AI 대형 모델에 맞춰진 네트워크 스위치 플랫폼, Quantum-X4. 새로운 NVIDIA IB 스위치 플랫폼은 하드웨어 기반 네트워크 내 컴퓨팅 기술, 확장 가능한 계층적 집계 감소 프로토콜 SHARP vXNUMX, 적응형 라우팅 및 원격 모니터링 기반 네트워크 정체 제어를 지원합니다. 이는 세 가지 핵심 구성 요소로 구성됩니다.

NVIDIA Quantum-X800 Q3400-RA 4U InfiniBand 스위치: 단일 채널 200Gb/s 기술을 활용한 세계 최초의 스위치로 네트워크 성능과 전송 속도를 크게 향상시킵니다. 이 스위치는 144개의 800T OSFP-XD 광 모듈(NVIDIA의 UFM 통합 패브릭 관리자를 통해 연결)을 통해 각각 72GB/s 속도의 1.6개 포트를 제공합니다. 새로운 Quantum-X800 Q3400 스위치의 고성능을 활용하여 10,368계층 fat-tree 네트워크 토폴로지는 최대 네트워크 지역성을 유지하면서 매우 낮은 대기 시간으로 최대 3400개의 네트워크 인터페이스 카드(NIC)를 연결할 수 있습니다. Q19 스위치는 공랭 방식을 사용하며 표준 3400인치 랙과 호환됩니다. NVIDIA는 또한 Open Compute Project(OCP) 21인치 랙에 적합한 QXNUMX-LD 병렬 액체 냉각 모드를 제공합니다.

그림 3: NVIDIA의 차세대 IB 스위치 플랫폼 Quantum-X800

NVIDIA의 차세대 IB 스위치 플랫폼 Quantum-X800
출처: https://www.nvidia.com

NVIDIA ConnectX-8 SuperNIC 네트워크 인터페이스 카드: NVIDIA의 최신 세대 네트워크 어댑터 아키텍처를 활용하여 멀티 테넌트 생성형 AI 클라우드를 효율적으로 관리하도록 특별히 설계된 엔드투엔드 800Gb/s 네트워크 및 성능 격리를 제공합니다. ConnectX-8 SuperNIC은 PCIe 800을 통해 6.0Gb/s 데이터 처리량을 제공하며 NVIDIA GPU 시스템 내부 PCIe 스위칭을 포함한 다양한 애플리케이션에 최대 48개의 전송 채널을 제공합니다. 또한 새로운 SuperNIC은 NVIDIA의 최신 In-Network Computing 기술인 MPI_Alltoall 및 MPI 태그 매칭 하드웨어 엔진과 고품질 서비스 및 네트워크 혼잡 제어와 같은 구조적 개선 사항을 지원합니다. ConnectX-8 SuperNIC은 OCP224 및 CEM PCIe x112을 포함한 다양한 폼 팩터와 호환되는 단일 포트 OSFP3.0 및 듀얼 포트 QSFP16 커넥터를 지원합니다. 또한 NVIDIA Socket Direct 16채널 보조 확장도 지원합니다.

그림 4: NVIDIA ConnectX-8 SuperNIC 새 IB 네트워크 인터페이스 카드

NVIDIA ConnectX-8 SuperNIC 새로운 IB 네트워크 인터페이스 카드
출처: https://www.nvidia.com

LinkX 케이블 및 트랜시버: NVIDIA의 Quantum-X800 플랫폼 상호 연결 제품 포트폴리오에는 패시브 DAC(직접 연결 케이블) 및 LACC(선형 활성 구리 케이블)가 있는 연결 트랜시버가 포함되어 있어 선호하는 네트워크 토폴로지를 구축하기 위한 더 높은 유연성을 제공합니다. 이 상호 연결 솔루션에는 특히 듀얼 포트 단일 모드 2xDR4/2xFR4 연결 트랜시버, 패시브 DAC 케이블 및 선형 액티브 구리 케이블 LACC가 포함됩니다.

그림 5: NVIDIA LinkX 케이블 및 트랜시버

NVIDIA LinkX 케이블 및 트랜시버
출처: https://www.nvidia.com

NVIDIA GB200 NVL72 솔루션

NVIDIA GB200NBL72 솔루션은 30조 개의 매개변수로 구성된 AI 모델에 대해 추론 속도를 4배 높이고, 학습 속도를 25배 높이고, 전력 효율성을 18배 개선하고, 데이터 처리 성능을 XNUMX배 향상시킵니다.

그림 6: NVIDIA, GB200 NVL72 솔루션 출시

NVIDIA, GB200 NVL72 솔루션 출시
출처: https://www.nvidia.com
  1. 추론 성능 측면에서 GB200 NVL72 솔루션은 FP4 AI를 지원하는 최신 세대 Transformer 엔진을 활용하고 30세대 NVLink를 채택하여 72조 매개변수 대형 모델에 대한 LLM(Large Language Model) 추론 성능이 XNUMX배 향상되었습니다. 새로운 Tensor Core 마이크로포맷으로 더 높은 정밀도와 처리량을 달성하고 액체 냉각을 통해 단일 캐비닛에 XNUMX개의 GPU로 구성된 대규모 GPU 클러스터를 구현합니다.
  2. 훈련 성능을 위해 FP8 정밀도를 갖춘 4세대 Transformer 엔진은 대규모 언어 모델과 대규모 훈련 속도를 1.8배 가속화합니다. InfiniBand 스위치 네트워크와 NVIDIA Magnum IO 소프트웨어를 사용하는 XNUMX세대 NVLink를 통해 XNUMXTb/s의 GPU-GPU 상호 연결 속도를 제공합니다.
  3. 전력 효율성과 관련하여 수냉식 GB200 NVL72는 데이터 센터 에너지 소비를 크게 줄입니다. 액체 냉각 기술은 컴퓨팅 밀도를 향상시키는 동시에 서버 랙 공간을 줄여 대규모 NVLink 도메인 아키텍처 내에서 고대역폭, 저지연 GPU 통신을 가능하게 합니다. 이전 세대 NVIDIA H100 공냉식 캐비닛과 비교하여 GB200 수냉식 캐비닛은 동일한 전력 소비로 25배 향상된 성능을 제공하는 동시에 물 사용량을 효과적으로 줄입니다.
  4. 데이터 처리 성능 측면에서 NVIDIA Blackwell 아키텍처, NVLink-C2C 기술 및 전용 압축 해제 엔진의 고대역폭 메모리 성능을 활용하는 GB200은 CPU에 비해 ​​중요 데이터베이스 쿼리 속도를 18배 향상시키는 동시에 TCO 비용을 5배 절감합니다.

그림 7: 추론 성능이 200배, 트레이닝 성능이 72배, 전력 효율성이 30배 향상된 NVIDIA의 GB4 NVL25 솔루션

NVIDIA의 GB200 NVL72 솔루션
출처: https://www.nvidia.com

NVIDIA의 GB200 NVL72 단일 캐비닛은 9개의 L1 NV 스위치 스위치와 18개의 컴퓨팅 노드로 구성됩니다. 각 컴퓨팅 노드는 캐비닛의 단일 레이어 GPU 트레이로 구성되며, 각 트레이에는 2개의 모듈이 포함됩니다. 각 장치는 Blackwell GPU 2개와 Grace CPU 1개로 구성되어 트레이당 총 4개의 GPU로 구성됩니다. 캐비닛에는 18개의 컴퓨팅 노드(상단에 10개, 하단에 9개)가 있으며 총 72개의 Blackwell GPU와 36개의 Grace CPU가 있습니다. 컴퓨팅 성능은 1440PFLOPS(FP4)/720PFLOPS(FP8/FP6)/720PFLOPS(INT8)를 달성하며 최대 GPU 메모리는 13.5TB(HBM3e)입니다. 상호 연결 매개변수에는 72개의 OSFP 단일 포트 ConnectX-7 VPI(400G 인피니밴드), ConnectX-8 네트워크 카드의 성능 매개변수는 아직 업데이트되지 않았습니다. GB200 AI 칩 성능은 최대 GPU 메모리 40GB(HBM4e)로 20PFLOPS(FP8)/6PFLOPS(FP10/FP8)/384PFLOPS(INT3)를 달성할 수 있습니다.

그림 8: NVIDIA, GB200 Superchip AI 칩 발표

NVIDIA, GB200 Superchip AI 칩 발표
출처: https://www.nvidia.com

NVIDIA, GB200 Superchip AI 칩 출시

NVIDIA GB200 NVL72 및 GB200 AI 칩의 세부 성능 매개변수

구리 연결 및 광 모듈에 대한 NVIDIA의 차세대 GB200 네트워크 아키텍처 요구 사항 분석

구리 연결은 224GB 스위치 시대에 비용 효율적인 이점을 제공합니다.

구리 연결은 스위치와 서버의 고밀도 클러스터링 추세에서 가격/성능 및 전력 소비 측면에서 이점을 갖고 있으며, 구리 케이블 연결은 단계별로 224Gb/s 스위치 시대에 가장 적합한 솔루션이 될 것으로 예상됩니다. NVIDIA GB200 솔루션의 중요한 변화는 단일 캐비닛에서 스위치와 컴퓨팅 노드를 상호 연결하고, 기존의 PCB-광 모듈-케이블 연결이 아닌 구리 케이블 연결을 통해 스위치 내부를 연결한다는 점입니다. GB200 상호 연결은 세 가지 주요 범주로 나뉩니다.

(1) GB200 NVL72 캐비닛 간 연결(외부 케이블): 대규모 데이터 센터에는 병렬 컴퓨팅을 위해 많은 수의 캐비닛이 필요한 경우가 많습니다. 캐비닛을 외부에서 네트워크로 연결해야 하는 경우 DAC/AOC 케이블이 있는 TOR 스위치를 통해 연결됩니다(그림 10 참조). 캐비닛 수가 많은 경우 순서대로 연결하려면 케이블링 장비 위의 캐비닛에 외부 상호 연결을 설치해야 합니다. 케이블 길이가 긴 경우가 많고, 구리 케이블이 2~4미터 이상이면 연결 요구 사항을 충족할 수 없으므로 광섬유 케이블을 주로 사용하는 장거리 상호 연결이 가능하며, 이 링크의 구리 케이블은 완전히 연결할 수 없습니다. 광섬유 케이블을 교체하십시오.

그림 9: 캐비닛 간 NVIDIA GB200 NVL72 상호 연결 다이어그램

캐비닛 간 NVIDIA GB200 NVL72 상호 연결 다이어그램
출처: https://www.nvidia.com

(2) GB200 NVL72 단일 캐비닛 연결(캐비닛 내부 케이블) - 모두 구리 케이블로 대체됨: 그림 10에서는 그림 10의 노란색 부분에 있는 구리 케이블을 통해 내부적으로 XNUMX개의 컴퓨팅 노드와 XNUMX개의 스위치가 연결되어 있으며, 구리 케이블 백플레인은 PCB 백플레인-광 모듈-케이블 연결을 통해 이전의 TOR 스위치 및 컴퓨팅 노드 사용을 대체합니다. 224GB/s의 단일 채널을 갖춘 차세대 스위치의 경우 800G/1.6T 광 모듈의 전력 소비는 일반적으로 16W 이상이며 GB200 NVL72의 연결 방식이 이전 광 모듈 연결을 기반으로 하는 경우 높은 전력 소비 문제를 일으킬 것입니다. 구리 연결은 광 모듈보다 전력 소비가 적고 비용 효율적입니다. Broadcom CEO는 최근 구리 연결 태도에 대한 지지를 표명했습니다. “통신 네트워크의 광 장치는 많은 전력과 비용을 소비하므로 Broadcom의 차세대 스위치 개발에서는 광 장치의 사용을 피하고 가능한 한 구리 연결 프로그램을 사용합니다. 광학 장치는 구리 전송이 수요를 충족할 수 없는 경우에만 사용됩니다.”

그림 10: NVIDIA GB200 NVL72 단일 섀시 내부의 스위치 및 컴퓨팅 노드 연결의 개략도

NVIDIA GB200 NVL72 단일 섀시 내부의 스위치 및 컴퓨팅 노드 연결에 대한 개략도
출처: https://www.nvidia.com

그림 11: NVIDIA GB200 NVL72 구리 케이블 백플레인 및 백플레인 커넥터 구성도

NVIDIA GB200 NVL72 구리 케이블 백플레인 및 백플레인 커넥터 회로도
출처: https://www.nvidia.com

3) NV 스위치 내부 - 백플레인 커넥터에서 스위치 칩까지의 연결을 구현하기 위해 구리 케이블을 사용합니다. 단일 채널 224Gb/s 스위치의 경우 그림 13의 노란색 부분에 표시된 것처럼 PCB 보드 영역도 제한됩니다. 전체 영역을 커버하기에는 충분하지 않으므로 장거리 링크 연결을 실현할 수 없으며 구리 점퍼 방식은 백플레인에서 스위치 칩까지 연결을 실현할 수 있습니다.

그림 12: NVIDIA GB200 NVL72 스위치 내부 구리 연결 솔루션의 개략도

NVIDIA GB200 NVL72 스위치 내부 구리 연결 솔루션의 개략도
출처: https://www.nvidia.com

1.6T 광 모듈 GB200 솔루션을 통해 대량 생산 기회가 가속화될 것으로 예상됩니다.

NVIDIA의 차세대 Blackwell 플랫폼은 더 높은 전송 속도를 갖춘 1.6T 광학 모듈에 대한 수요를 촉진할 것입니다. 엔비디아가 새롭게 출시한 Quantum-X800 Q3400-RA 4U InfiniBand 스위치의 성능에 따르면, 세계 최초 단일 채널 200Gb/s 기술이 적용된 스위치로 144개 포트에 800GB/s 연결 속도를 제공하며, 이는 72개의 1.6T OSFP로 구현됩니다. 광학 모듈. 따라서 GB200 솔루션에 차세대 스위치가 점진적으로 적용되면 1.6T 광 모듈에 대한 수요가 증가할 것으로 예상됩니다.

대규모 GPU 클러스터 애플리케이션 시나리오에서 Blackwell 플랫폼은 캐비닛 간 상호 연결을 실현하기 위해 여전히 광학 모듈이 필요하며 800G 광학 모듈에 대한 수요는 유지될 것입니다.

(1) GB200 단일 캐비닛(72개의 GPU에 해당): 차세대 GB200 단일 캐비닛 프로그램은 더 이상 상호 연결을 위해 광학 모듈이 필요하지 않습니다.

(2) 캐비닛 간의 상호 연결을 실현하려면 1~8GB200 NVL72 클러스터(72~576 GPU에 해당) 사이에 일부 800G 광학 모듈이 여전히 필요합니다. 데이터의 20%가 캐비닛을 통해 전송되어야 하는 경우 7200Gb의 NVLink 단방향 총 전송 대역폭은 단일 GPU 및 800G 광학 모듈 수요 비율 1:2에 해당합니다.

(3) 8개 이상의 대규모 GB200 NVL72 클러스터(576개 이상의 GPU에 해당), GPU와 3G 광 모듈 수요 비율 800:1에 따라 InfiniBand Layer 2.5 네트워크를 구성할 것으로 예상됩니다. 두 번째 레이어 1:2, 전체 GB200 수요 비율은 1:4.5가 될 것으로 예상됩니다.

코멘트 남김

위쪽으로 스크롤