Nvidia의 NvLink 및 NvSwitch 진화 이해: 토폴로지 및 속도

인공지능(AI), 고성능 컴퓨팅(HPC), 데이터 분석의 급속한 성장은 최첨단 상호 연결 기술을 요구합니다. NVIDIA의 NVIDIA H100 GPU는 고급 NVLink 및 NVSwitch 기술과 결합되어 이러한 혁신의 선두에 서서 데이터 집약적인 워크로드에 탁월한 성능을 제공합니다. Hopper 아키텍처를 기반으로 구축된 NVIDIA H100은 NVLink 4.0과 NVSwitch를 활용하여 GPU 간의 고속 확장 가능 통신을 지원하여 데이터 센터와 슈퍼컴퓨터의 혁신을 촉진합니다. 이 가이드에서는 NVLink와 NVSwitch의 발전 과정을 살펴보고 NVIDIA H100이 AI, HPC 및 엔터프라이즈 애플리케이션에서 잠재력을 극대화하는 방법을 강조합니다. AI 슈퍼컴퓨터를 설계하든 데이터 센터를 업그레이드하든, NVIDIA H100, NVLink, NVSwitch의 시너지 효과를 이해하는 것은 차세대 성능을 달성하는 데 매우 중요합니다.

100년 Hopper 아키텍처의 일부로 출시된 NVIDIA H2022 GPU는 AI, HPC 및 데이터 분석을 위한 NVIDIA의 가장 진보된 GPU입니다. 최대 80억 개의 트랜지스터와 FP8 정밀도를 지원하는 NVIDIA H100은 이전 모델인 A3보다 최대 100배 향상된 성능을 제공합니다. NVLink 4.0 및 NVSwitch와의 통합은 NVIDIA의 상호 연결 기술 발전에 있어 중요한 이정표입니다. NVLink 4.0은 최대 900GB/s의 양방향 대역폭을 제공하고, NVSwitch는 NVIDIA DGX H100과 같은 시스템에서 여러 NVIDIA H100 GPU 간에 확장 가능한 고속 통신을 지원합니다. 이러한 시너지 효과를 통해 NVIDIA H100은 대규모 AI 모델, 과학 시뮬레이션 및 실시간 분석을 전례 없는 효율성으로 처리할 수 있습니다.

2014: Tesla P100을 사용한 Pascal 아키텍처 소개

2014년 엔비디아는 Pascal 아키텍처를 기반으로 Tesla P100을 출시했습니다. 이 GPU는 4세대 NVLink 기술을 특징으로 하여 8개 또는 1.0개 GPU 간의 고속 통신을 가능하게 했습니다. NVLink 3.0의 양방향 상호 연결 대역폭은 PCIe 16×XNUMX의 XNUMX배였습니다. 계산은 다음과 같습니다.

  • PCIe 3.0×16: 양방향 통신 대역폭은 32GB/s(1GBx16x2)입니다.
  • NVLink 1.0: 160GB/s(20GBx4x2)의 양방향 상호연결 대역폭.

NvSwitch 칩이 없기 때문에 GPU는 메시 토폴로지로 상호 연결되었으며, 160GB/s는 하나의 GPU에서 직접 연결된 XNUMX개의 GPU로의 총 대역폭을 나타냅니다.

Tesla P100을 탑재한 Pascal 아키텍처

2017: V100을 탑재한 Volta 아키텍처

2017년에 Nvidia는 V100 GPU와 함께 Volta 아키텍처를 출시했습니다. V100의 NVLink는 링크당 단방향 대역폭을 20GB/s에서 25GB/s로, 링크 수를 4개에서 6개로 늘려 총 지원 GPU NVLink 대역폭을 300GB/s로 높였습니다. 그러나 100년에 출시된 V1 DGX-2017 시스템에는 NvSwitch가 없었습니다. 토폴로지는 NVLink 1.0과 유사했지만 링크 수가 증가했습니다.

V100을 탑재한 Volta 아키텍처

2018: V100 DGX-2 시스템 소개

GPU 간 통신 대역폭과 전반적인 시스템 성능을 더욱 향상시키기 위해 Nvidia는 100년에 V2 DGX-2018 시스템을 출시했습니다. 이는 NvSwitch 칩을 통합한 최초의 시스템으로, 단일 DGX-16 시스템 내에서 100개의 SXM V2 GPU 간의 완벽한 상호 연결을 가능하게 했습니다.

V100 DGX-2 시스템

NVSwitch에는 18개의 NVLink 포트가 있으며, 8개는 GPU에 연결되고 8개는 다른 베이스보드의 다른 NVSwitch 칩에 연결됩니다. 각 베이스보드에는 다른 베이스보드와 통신하기 위한 XNUMX개의 NVSwitch가 있습니다.

각 베이스보드에는 다른 베이스보드와 통신하기 위한 NVSwitch가 6개 포함되어 있습니다.

2020: A100을 탑재한 Ampere 아키텍처

2020년에 Nvidia는 A100 GPU와 함께 Ampere 아키텍처를 출시했습니다. NVLink와 NVSwitch 칩은 각각 버전 3.0과 2.0으로 업그레이드되었습니다. 링크당 단방향 대역폭은 25GB/s로 유지되었지만 링크 수는 12개로 늘어나 총 양방향 상호 연결 대역폭은 600GB/s가 되었습니다. DGX A100 시스템은 6개의 NVSwitch 2.0 칩을 갖추고 있으며, 각 A100 GPU는 12개의 NVSwitch 칩에 6개의 NVLink 연결을 통해 상호 연결되어 각 NVSwitch에 XNUMX개의 링크가 보장됩니다.

GPU 시스템의 논리적 토폴로지는 다음과 같습니다.

GPU 시스템의 논리적 토폴로지

많은 사람들이 HGX 모듈과 "서버 헤드" 간의 논리적 관계에 대해 불분명합니다. 아래는 SXM GPU 베이스보드가 PCIe 링크를 통해 서버 마더보드와 상호 연결되어 있음을 보여주는 다이어그램입니다. PCIe 스위치(PCIeSw) 칩은 서버 헤드 마더보드에 통합되어 있습니다. 네트워크 카드와 NVMe U.2 PCIe 신호도 모두 PCIeSw에서 발생합니다.

HGX 모듈과 서버 헤드 간의 논리적 관계

2022: H100을 탑재한 Hopper Architecture

Hopper 아키텍처를 기반으로 하는 H100 GPU는 2022년에 각각 NVLink 및 NVSwitch 버전 4.0 및 3.0으로 출시되었습니다. 링크당 단방향 대역폭은 25GB/s로 변경되지 않았지만 링크 수는 18개로 증가하여 총 양방향 상호 연결 대역폭은 900GB/s가 되었습니다. 각 GPU는 4+5+4+4 그룹을 사용하여 5개의 NVSwitch와 상호 연결됩니다.

H100을 사용한 Hopper 아키텍처

DGX 시스템의 NVSwitch 칩의 OSFP 인터페이스는 DGX H100 256 SuperPOD 솔루션과 같은 Nvidia의 대규모 GPU 네트워크에 사용됩니다.

DGX H100 256 슈퍼포드

2024: B200을 탑재한 Blackwell Architecture

2024년에 Nvidia는 각각 NVLink 및 NVSwitch 버전 200 및 5.0을 특징으로 하는 B4.0 GPU와 함께 Blackwell 아키텍처를 출시했습니다. 링크당 단방향 대역폭은 50개 링크로 18GB/s로 두 배가 되어 총 양방향 상호 연결 대역폭은 1.8TB/s가 되었습니다. 각 NVSwitch 칩에는 72개의 NVLink 5.0 포트가 있으며 각 GPU는 두 개의 NVSwitch 칩에 대한 9개의 NVLink 연결을 사용합니다.

B200을 탑재한 Blackwell Architecture

엔비디아는 B200 출시와 함께 NVLink 네트워크 스위치를 활용해 72개 GPU 간의 완벽한 상호 연결을 구현하는 통합 GPU 시스템인 NVL72도 출시했습니다.

72개의 NVLink 스위치를 사용하여 9개 GPU를 상호 연결하는 논리적 토폴로지는 다음과 같습니다.

72개의 NVLink 스위치를 사용하는 9개 GPU

각 B200 GPU에는 18개의 NVLink 포트가 있어 총 1,296개의 NVLink 연결(72×18)이 가능합니다. 단일 스위치 트레이에는 72개의 NVLink 스위치 칩이 들어 있으며, 각각 144개의 인터페이스(총 9개)를 제공합니다. 따라서 72개의 GPU를 완전히 상호 연결하려면 XNUMX개의 스위치 트레이가 필요합니다.

NVIDIA H100 GPU는 NVLink 4.0 및 NVSwitch와 결합되어 고성능 컴퓨팅에 혁신적인 이점을 제공합니다.

  • 비교할 수 없는 대역폭: NVLink 4.0은 NVIDIA H900당 100GB/s를 제공하여 AI 및 HPC 워크로드에 대한 빠른 데이터 전송을 가능하게 합니다.
  • 엄청난 확장성: NVSwitch는 최대 256개의 NVIDIA H100 GPU를 연결하여 DGX H100과 같은 대규모 시스템을 지원합니다.
  • 초저지연: 마이크로초 미만의 통신으로 시간에 민감한 애플리케이션의 실시간 처리가 보장됩니다.
  • AI 최적화: NVIDIA H100의 Transformer Engine은 NVLink와 결합되어 대규모 언어 모델과 생성 AI를 가속화합니다.
  • 에너지 효율성: 대역폭이 높은 링크는 연결 수를 줄여 전력 소비를 낮춥니다.
  • 일관된 메모리: NVSHMEM은 NVIDIA H100 GPU 전반에서 캐시 일관된 메모리 액세스를 지원하여 효율성을 높입니다.
  • 미래 지향적 설계: AI 추론 및 과학적 시뮬레이션과 같은 새로운 워크로드를 지원합니다.

이러한 장점 덕분에 NVLink와 NVSwitch를 탑재한 NVIDIA H100은 차세대 컴퓨팅의 초석이 됩니다.

NVIDIA H100을 A100과 같은 다른 NVLink 지원 GPU와 비교하면 장점을 명확히 알 수 있습니다.

특색엔비디아 H100엔비디아 A100엔비디아 V100
아키텍처호퍼(2022)암페어 (2020)볼타(2017)
NVLink 버전NVLink 4.0(900GB/초)NVLink 3.0(600GB/초)NVLink 2.0(300GB/초)
NVSwitch 지원3세대(57.6TB/s)2세대(4.8TB/s)1세대(2.4TB/s)
성능3x A100(FP8 정밀)2x V100기준
메모리141 GB HBM380GB HBM2e32 GB HBM2
적용 사례AI, HPC, 대규모 분석AI, HPC, 데이터 분석초기 AI, HPC

NVLink 100과 NVSwitch를 탑재한 NVIDIA H4.0은 뛰어난 성능과 확장성을 제공하여 최첨단 AI 및 HPC 애플리케이션에 가장 적합한 선택입니다.

NVLink 및 NVSwitch를 사용하여 NVIDIA H100을 배포하려면 신중한 계획이 필요합니다.

  • 하드웨어 선택: NVIDIA H100 GPU 및 NVLink 4.0 호환 시스템(예: DGX H100, HGX H100)을 사용하세요.
  • NVSwitch 통합: 대규모 시스템에서 다중 GPU 확장성을 위해 3세대 NVSwitch를 배포합니다.
  • NVLink 구성: 최대 대역폭(NVIDIA H4.0당 900GB/s)을 위해 NVLink 100 연결을 최적화합니다.
  • 소프트웨어 설치: NVIDIA CUDA, NVSHMEM 및 NCCL 라이브러리를 사용하여 NVIDIA H100의 캐시 일관성 기능을 활성화합니다.
  • 성능 테스트: NCCL과 같은 도구로 데이터 전송을 벤치마크하여 NVIDIA H100 성능을 보장합니다.
  • 확장 인프라: NVSwitch를 활용하여 여러 NVIDIA H100 GPU를 연결하여 미래 성장을 위해 설계합니다.

NVLink와 NVSwitch를 탑재한 NVIDIA H100은 뛰어난 성능을 제공하지만 다음과 같은 과제도 있습니다.

  • 높은 비용: NVIDIA H100 GPU와 NVSwitch 시스템은 가격이 비싸서 상당한 투자가 필요합니다.
  • 독점적 생태계: NVIDIA H100은 NVIDIA의 NVLink/NVSwitch로 제한되어 있어 NVIDIA가 아닌 하드웨어와의 호환성이 줄어듭니다.
  • 구성 복잡성: NVLink 100 및 NVSHMEM을 사용하여 NVIDIA H4.0을 최적화하려면 전문 지식이 필요합니다.
  • 전력 소비: NVSwitch를 사용한 대규모 NVIDIA H100 배포로 인해 전력 소비가 증가합니다.
  • 확장성 제한: NVSwitch는 NVIDIA 생태계에 최적화되어 있으며 CXL과 같은 개방형 표준보다 유연성이 떨어집니다.

NVIDIA H100, NVLink, NVSwitch는 새로운 기술과 함께 발전할 예정입니다.

  • 더 높은 대역폭: 향후 NVLink 버전은 1TB/s를 초과하여 NVIDIA H100 성능을 향상시킬 수 있습니다.
  • AI 최적화: 고급 NVSHMEM과 NVSwitch는 NVIDIA H100에서 차세대 AI 모델을 간소화합니다.
  • 더욱 광범위한 통합: NVIDIA H100은 이기종 시스템을 위한 CXL과 같은 하이브리드 상호 연결을 지원할 수 있습니다.
  • 에너지 효율성: 향후 설계에서는 NVIDIA H100 배포 시 전력 소비가 줄어들 것입니다.
  • Edge AI: NVLink를 탑재한 NVIDIA H100은 엣지에서 저지연 AI 추론을 지원합니다.

코멘트 남김

위쪽으로 스크롤