NVIDIA의 Spectrum-X 솔루션 이해

NVIDIA의 Spectrum-X 솔루션은 생성 AI를 위해 특별히 설계된 세계 최초의 엔드투엔드 이더넷 솔루션입니다. 이 포괄적인 솔루션에는 Spectrum-4 시리즈 스위치, BlueField-3 SuperNIC, LinkX 800G/400G 고성능 케이블 모듈, 하드웨어 가속 기능이 있는 통합 풀스택 소프트웨어 솔루션 등 여러 가지 핵심 구성 요소가 포함되어 있습니다. Spectrum-X의 진정한 힘은 하드웨어와 소프트웨어의 긴밀한 통합에 있습니다. 단일 부분을 단독으로 사용하면 최대 효율성을 충분히 보여주지 못합니다.

엔비디아 스펙트럼-X

오늘날 많은 선도적인 칩 제조업체가 AI 및 머신 러닝(ML) 애플리케이션을 위해 설계된 스위치 칩을 출시했으며, 단일 칩 처리량은 최대 51.2Tbps에 이릅니다. 기존 데이터 센터 스위치 칩은 AI 시나리오에서 사용할 수 있지만, 훈련 및 추론에 초점을 맞춘 AI 트래픽을 처리할 때 효율성이 부족합니다.

기존 이더넷이 AI 전용 트래픽 모델에서 제약을 받는 이유에 대해 알아보겠습니다. 주된 이유는 부하 불균형, 높은 지연 시간과 지터, 그리고 혼잡 제어가 취약하기 때문입니다.

ECMP 부하 불균형 문제

기존 이더넷 데이터 센터는 주로 웹 브라우징, 음악 및 비디오 스트리밍, 일상적인 사무 작업과 같은 애플리케이션을 처리합니다. 이러한 애플리케이션은 일반적으로 무작위로 분산된 작고 수많은 데이터 흐름("흐름"이라고 함)을 포함하므로 해시 알고리즘(ECMP)을 기반으로 하는 다중 경로 부하 분산 기술에 적합하여 네트워크 대역폭이 균등하게 사용되도록 합니다.

그러나 AI 모델 학습에서는 모델, 매개변수, GPU, CPU, NIC가 밀접하게 결합됩니다. 네트워크 트래픽은 주로 all-reduce 및 all-to-all과 같은 고대역폭 집합 작업으로 구성됩니다. 일반적으로 각 GPU는 고대역폭 NIC와 페어링되고 각 NIC는 각 학습 프로세스 동안 비교적 적은 수의 흐름 연결을 설정합니다. 이러한 흐름은 전체 NIC 대역폭을 빠르게 소모할 만큼 중요합니다. 이를 "코끼리 흐름"이라고 합니다.

엘리펀트 플로우의 특성상 해시 알고리즘으로 인해 특정 네트워크 경로에 집중할 수 있으며, 이러한 경로에 심각한 과부하가 발생하는 반면 다른 경로는 활용도가 낮습니다. 이러한 불균형한 트래픽 분배로 인해 기존 ECMP 기반 로드 밸런싱 방법이 효과가 없어 전반적인 훈련 효율성에 영향을 미칩니다.

높은 지연 시간과 지터 문제

기존 이더넷 애플리케이션은 TCP/IP 소켓 프로그래밍에 의존하는데, 여기서 CPU는 사용자 데이터를 사용자 공간에서 커널 공간으로 복사한 다음, 커널 공간에서 네트워크 카드 드라이버로 복사하여 처리하고 수신기로 전송해야 합니다. 이 프로세스는 지연 시간을 늘리고 CPU 작업 부하를 증가시킵니다. 이러한 문제를 해결하기 위해 최신 AI 컴퓨팅 클러스터는 InfiniBand 또는 RDMA over Converged Ethernet(RoCE)과 같은 RDMA(Remote Direct Memory Access) 기술을 지원하는 무손실 네트워크를 사용합니다. 이러한 기술은 커널을 우회(커널 바이패스)하고 제로 카피 메커니즘을 사용하여 애플리케이션 데이터 전송 지연 시간을 크게 줄입니다.

AI 훈련 시나리오에서 GPU Direct RDMA 및 GPU Direct Storage와 같은 기술은 RDMA를 통해 GPU 메모리 간 또는 GPU 메모리와 스토리지 간의 직접 데이터 교환을 가능하게 합니다. 이를 통해 GPU 메모리 데이터 전송 지연 시간을 원래의 1/10로 줄일 ​​수 있습니다. 또한 NVIDIA Collective Communications Library(NCCL)는 RDMA 인터페이스를 원활하게 지원하여 AI 애플리케이션을 위한 TCP에서 RDMA 프레임워크로의 전환을 크게 간소화합니다.

수억 개의 매개변수가 있는 대규모 모델을 학습할 때, 우리는 종종 효율성을 높이기 위해 병렬 처리를 위해 데이터와 모델을 분해합니다. 이 과정에서 수천 개의 GPU가 복잡하고 다차원적인 병렬 및 교차 구조 구성으로 함께 작동하여 지속적으로 매개변수를 교환하고 계산 결과를 요약합니다. 이 분산 병렬 학습 프로세스의 각 단계가 효율적이고 안정적임을 보장하는 것이 중요합니다. 단일 GPU 오류나 노드 간 통신의 지연 시간 증가는 전체 학습 프로세스에 병목 현상을 일으킬 수 있습니다. 이러한 지연 시간 증가는 전체 학습 시간을 늘릴 뿐만 아니라 속도 개선(학습 가속 비율) 및 최종 결과에 부정적인 영향을 미칩니다. 따라서 AI 학습에는 지연 시간이 낮고 링크 품질이 더 좋은 네트워크가 필요합니다.

불량한 네트워크 혼잡 제어 문제

분산 병렬 훈련에서 여러 소스가 단일 수신기로 데이터를 보내는 "인캐스트" 트래픽 스파이크는 종종 네트워크 혼잡을 유발합니다. 기존 이더넷은 최선의 서비스 모델을 따르기 때문에 엔드투엔드 서비스 품질(QoS)이 좋더라도 버퍼 오버플로와 패킷 손실을 피하기 어렵습니다. 일반적으로 상위 계층 프로토콜은 재전송 메커니즘을 사용하여 패킷 손실의 영향을 완화합니다. RDMA를 지원하는 이더넷의 경우 패킷 손실을 0으로 만드는 것이 중요합니다.

이 목표를 달성하기 위해 두 가지 핵심 기술이 널리 채택되었습니다. 홉 바이 홉 흐름 제어 메커니즘과 "인캐스트" 트래픽을 위한 혼잡 제어 메커니즘입니다. RDMA over Converged Ethernet(RoCE) 네트워크에서 이러한 메커니즘은 각각 우선 순위 흐름 제어(PFC)와 데이터 센터 양자화 혼잡 제어(DCQCN)로 구현됩니다.

백지

AI 훈련 시나리오에서 Priority Flow Control(PFC)과 Data Center Quantized Congestion Control(DCQCN)은 네트워크 혼잡을 완화하지만 여전히 상당한 단점이 있습니다. PFC는 홉 바이 홉 백프레셔를 생성하여 데이터 손실을 방지하지만, 이로 인해 혼잡 트리, 헤드 오브 라인 블로킹 및 교착 상태 루프가 발생하여 궁극적으로 전체 네트워크 성능에 영향을 미칠 수 있습니다. DCQCN은 ECN 마킹 및 CNP 메시지를 사용하여 속도를 조정하지만 혼잡 표시가 정확하지 않고 속도 조정이 느리고 동적 네트워크 조건에 신속하게 대응할 수 없어 처리량이 제한됩니다. 둘 다 수동 조정 및 모니터링이 필요하여 운영 비용과 유지 관리 복잡성이 증가하고 AI 훈련에서 고성능, 저지연 네트워크에 대한 엄격한 요구 사항을 충족하지 못합니다.

NVIDIA Spectrum-X가 이러한 문제를 극복하는 방법

NVIDIA의 Spectrum-X 솔루션은 AI 훈련에서 이러한 기존 이더넷 한계를 해결하여 다양한 네트워크 제조업체 중에서 두드러집니다. 최근 기술 백서에 따르면 Spectrum-X의 핵심 장점은 "킬러" 기능으로 간주되는 적응형 라우팅 기술에 있습니다. 이 기술은 기존 이더넷의 정적 해시 분배 메커니즘으로 인해 발생하는 불균일한 대역폭 할당을 직접 해결합니다.

네트워크 측 스위치와 터미널 측 DPU(데이터 처리 장치)의 기능을 깊이 통합함으로써 Spectrum-X는 각 링크의 물리적 대역폭과 포트 이탈 혼잡 상태를 실시간으로 동적으로 모니터링합니다. 이 모니터링을 기반으로 Spectrum-X는 각 네트워크 패킷에 대해 미세 조정된 동적 부하 분산 전략을 구현하여 링크 균형과 효과적인 대역폭 활용도를 기존의 50%-60%에서 97% 이상으로 크게 향상시킬 수 있습니다. 이러한 개선은 AI 애플리케이션에서 "엘리펀트 플로우"(대규모 데이터 전송 플로우)로 인해 발생하는 롱테일 지연 문제를 직접 제거합니다.

적응형 라우팅 성능

그림에서 보듯이, 기존 ECMP는 불균일한 대역폭 사용으로 인해 특정 데이터 흐름에 대한 완료 시간이 상당히 길어질 수 있습니다. 반면, 적응형 라우팅은 모든 데이터 흐름이 여러 링크에 고르게 분산되도록 보장하여 각 데이터 흐름의 전송 시간을 상당히 단축하고 균형을 맞춰 전체 학습 작업 완료 주기를 줄입니다. 특히, all-reduce 및 all-to-all과 같은 AI 학습 시나리오에서 일반적인 집단 통신 패턴에서 Spectrum-X는 뛰어난 링크 대역폭 사용 기능으로 인해 기존 이더넷에 비해 상당한 성능 이점을 보여줍니다.

직접 데이터 배치(DDP): 순서 없는 재조립 과제에 대한 혁신적인 솔루션

패킷당 로드 밸런싱 전략은 대역폭 활용 효율성을 크게 개선하고 많은 사람이 찾는 솔루션이 되었지만, 이러한 전략이 가져오는 주요 과제는 수신 측에서 순서가 맞지 않는 패킷을 다시 조립하는 것입니다. 이 문제는 업계에서 극복하기 어려웠습니다. 기존 방식은 네트워크 측 처리 또는 터미널 측 솔루션에 의존하지만, 둘 다 소프트웨어 및 하드웨어 성능 병목 현상으로 제한되어 최적이 아닌 결과를 초래합니다.

Spectrum-X는 Spectrum-4 스위치 네트워크 측과 BlueField-3 단말 측 하드웨어를 혁신적으로 심층 통합하여 이러한 과제를 우아하게 해결합니다. 다음은 RoCE(RDMA over Converged Ethernet) 시나리오에서 DDP 처리 흐름에 대한 자세한 설명입니다.

RoCE(통합 이더넷을 통한 RDMA)

왼쪽에서, 다른 GPU 메모리에서 시작된 훈련 트래픽은 먼저 각각의 전송 BlueField-3 NIC에 의해 특별히 표시됩니다. 이렇게 표시된 패킷은 직접 연결된 Top of Rack(TOR) Spectrum-4 스위치로 전송됩니다. TOR 스위치는 강력한 하드웨어 기능을 활용하여 BlueField-3로 표시된 패킷을 빠르게 식별하고, 업링크의 실시간 대역폭 상태와 버퍼 조건을 기반으로 패킷당 동적 라우팅 알고리즘을 사용하여 각 데이터 흐름의 패킷을 XNUMX개의 업링크 경로에서 XNUMX개의 스파인 스위치로 지능적으로 분산합니다.

랙 상단(TOR)

이러한 패킷은 각각의 스파인 스위치를 통과하면서 결국 목적지 TOR 스위치에 도달하고, 더 나아가 대상 서버의 BlueField-3 NIC로 전송됩니다. 전송 경로가 다르고 장비 성능도 다르기 때문에 패킷이 목적지 BlueField-3 NIC에 순서 없이 도착할 수 있습니다. 내장된 DDP 기술을 활용하는 목적지 BlueField-3 NIC는 BlueField-3으로 표시된 패킷을 빠르게 식별하고 패킷 메모리 주소를 직접 읽어 패킷을 정확하게 대상 GPU의 메모리에 배치합니다. 그런 다음 DDP 기술은 이러한 순서가 맞지 않는 패킷을 더욱 통합하여 올바른 순서로 완전한 데이터 흐름으로 결합되도록 보장하고, 네트워크 경로 차이와 장비 성능 차이로 인해 발생하는 순서가 맞지 않는 문제를 완전히 제거합니다.

블루필드-3

동적 라우팅과 DDP 하드웨어 가속 기술의 원활한 통합을 통해 Spectrum-X는 기존 이더넷 ECMP(Equal-Cost Multi-Path) 메커니즘의 불균일한 대역폭 할당 문제를 효과적으로 해결할 뿐만 아니라 순서가 없는 패킷으로 인해 발생하는 롱테일 지연 현상을 근본적으로 제거합니다. 이는 AI 훈련과 같은 고성능 컴퓨팅 애플리케이션을 위한 보다 안정적이고 효율적인 데이터 전송 솔루션을 제공합니다.

AI 멀티 테넌시를 위한 성능 격리

고도로 동시적인 AI 클라우드 생태계에서 애플리케이션 성능 변동과 런타임 불확실성은 종종 네트워크 수준 혼잡과 밀접한 관련이 있습니다. 이 현상은 애플리케이션 자체의 네트워크 트래픽 변동에서 발생할 뿐만 아니라 다른 동시 애플리케이션의 백그라운드 트래픽으로 인해 발생할 수도 있습니다. 구체적으로, "다대일" 혼잡(여러 데이터 소스가 단일 수신기로 데이터를 전송)은 상당한 성능 병목 현상이 되어 수신기의 처리 압력을 극적으로 증가시킵니다.

멀티 테넌트 또는 멀티태스크 공존 RoCE 네트워크 환경에서 VXLAN과 같은 기술은 일정 수준의 호스트 격리를 달성할 수 있지만 테넌트 트래픽 혼잡 및 성능 격리 문제는 여전히 어렵습니다. 일반적인 시나리오는 일부 애플리케이션이 물리적 베어 메탈 환경에서는 뛰어난 성능을 발휘하지만 클라우드로 마이그레이션하면 성능이 크게 떨어지는 것입니다.

NVIDIA Spectrum-X 백서

예를 들어, 워크로드 A와 워크로드 B가 시스템에서 동시에 실행 중이라고 가정합니다. 네트워크 혼잡이 발생하여 혼잡 제어 메커니즘을 트리거할 때 ECN이 전달하는 정보가 제한되어 있기 때문에 송신자는 혼잡이 발생한 스위치 레벨이나 혼잡의 범위를 확인할 수 없습니다. 따라서 송신 속도를 얼마나 빨리 늘리거나 줄일지 결정할 수 없으며, 종종 점진적으로 수렴하기 위해 휴리스틱 방법에 의존합니다. 이 수렴 시간은 길고 작업 간 간섭을 쉽게 일으킬 수 있습니다. 또한 혼잡 제어 매개변수는 많고 스위치와 NIC에는 매우 세부적이고 복잡한 매개변수 설정이 필요합니다. 혼잡 제어 메커니즘을 너무 빨리 또는 너무 느리게 트리거하면 고객 비즈니스 성과에 상당한 영향을 미칠 수 있습니다.

이러한 과제를 해결하기 위해 BlueField-3 하드웨어 플랫폼에서 강력한 프로그래밍 가능 혼잡 제어 기능을 갖춘 Spectrum-X는 기존 DCQCN 알고리즘을 뛰어넘는 고급 솔루션을 제공합니다. Spectrum-X는 송신자와 수신자 양쪽에서 BlueField-3 하드웨어의 긴밀한 협업을 통해 트래픽 경로의 혼잡 상태를 정확하게 평가하고, RTT(Round Trip Time) 프로브 패킷과 중간 스위치의 인밴드 원격 측정 정보를 활용합니다. 이 정보에는 스위치를 통과하는 패킷의 타임스탬프와 이그레스 버퍼 사용률이 포함되지만 이에 국한되지 않으며, 혼잡 제어를 위한 견고한 기반을 제공합니다.

DCQCN

중요한 점은 BlueField-3 하드웨어의 고성능 처리 기능을 통해 초당 수백만 개의 Congestion Control(CC) 패킷을 처리하여 다양한 워크로드에 따라 정교한 혼잡 제어를 달성할 수 있다는 것입니다. 이를 통해 성능 격리 목표를 효과적으로 달성할 수 있습니다. 이 메커니즘에 따라 워크로드 A와 워크로드 B는 다른 테넌트의 혼잡에 부정적인 영향을 받지 않고 각각 최적의 예상 성능을 달성할 수 있습니다.

요약하자면, 혁신적인 하드웨어 기술과 지능형 혼잡 제어 알고리즘을 갖춘 Spectrum-X는 AI 멀티 테넌트 클라우드 환경을 위한 효율적이고 정확한 성능 분리 솔루션을 제공하여 각 테넌트가 물리적 환경과 동등한 성능을 달성할 수 있도록 돕습니다.

Spectrum-X 제품 구성

SN5600 스위치: SN5600 스위치는 TSMC의 최첨단 2nm 공정으로 제작되고 무려 4억 개의 트랜지스터를 탑재한 Spectrum-51.2 4Tbps 단일 칩을 통합한 첨단 100U 박스 스위치입니다.

Spectrum-X 제품 구성

스위치는 64개의 800G OSFP 포트를 갖추고 있으며, 128개의 400G 포트 또는 256개의 200G 포트로의 확장을 유연하게 지원하여 다양한 네트워크 요구 사항을 충족할 수 있습니다. 패킷 전달 속도는 33.3Bpps에 이르며, 512K 전달 테이블 항목과 160MB의 글로벌 공유 캐시를 갖추고 있어 172바이트 패킷에도 라인 속도 전달이 가능합니다. 또한 SN5600은 Cumulus 및 Sonic과 같은 주류 운영 체제와 완벽하게 호환되며, 그 기능은 1세대에서 4세대까지 Spectrum 시리즈를 통해 지속적으로 발전하여 사용자에게 향상된 네트워크 성능과 유연성을 제공합니다.

BlueField-3 SuperNIC: BlueField-3 SuperNIC은 BlueField-3 플랫폼을 기반으로 하는 새로운 네트워크 가속기로, 대규모 AI 워크로드를 구동하도록 설계되었습니다. 특히 네트워크 집약적 대규모 병렬 컴퓨팅을 위해 개발되었으며, 컨버지드 이더넷을 통해 GPU 서버 간에 최대 400Gb/s RDMA 연결을 제공하여 최대 AI 워크로드 효율성을 최적화합니다. BlueField-3 SuperNIC은 AI 클라우드 컴퓨팅의 새로운 시대를 열며, 안전한 멀티 테넌트 데이터 센터 환경을 제공하고 작업과 테넌트 간의 성능 일관성과 격리를 보장합니다.

BlueField-3 SuperNIC

특히 강력한 DOCA 2.0 소프트웨어 개발 프레임워크는 고도로 사용자 정의 가능한 소프트웨어 솔루션을 제공하여 전반적인 시스템 효율성을 더욱 향상시킵니다.

LinkX 케이블: LinkX 케이블 시리즈는 800G PAM400 기술을 활용하여 100G 및 4G 엔드투엔드 고속 연결에 중점을 둡니다. OSFP 및 QSFP112 MSA 표준을 완벽하게 지원하며 DAC 및 ACC에서 멀티모드 및 싱글모드에 이르기까지 다양한 광 모듈 형태를 포괄하여 다양한 배선 요구 사항을 충족합니다. 이러한 케이블은 SN5600 스위치의 800G OSFP 포트와 원활하게 인터페이스하여 1G OSFP 포트를 2대 400로 확장하여 네트워크 연결 유연성과 효율성을 개선할 수 있습니다.

요약 및 사례 연구

NVIDIA의 선구적인 글로벌 선도 AI 이더넷 솔루션인 Spectrum-X는 업계를 선도하는 하드웨어 및 소프트웨어 기술을 통합하여 AI 컴퓨팅 파워 생태계를 재편하는 것을 목표로 합니다. 핵심적인 하이라이트에는 자체 개발된 Spectrum-4 ASIC 고성능 스위치, BlueField 시리즈 DPU 지능형 NIC, Direct Drive 기술을 사용하는 LinkX 광 모듈 케이블이 포함됩니다. 이러한 하드웨어 구성 요소가 함께 강력한 인프라를 구축합니다.

기술적으로 Spectrum-X는 동적 라우팅 메커니즘, 엔드 사이드 비순차적 수정 기술, 차세대 프로그래밍 가능 혼잡 제어 알고리즘, 풀스택 AI 소프트웨어 가속 플랫폼 DOCA 2.0과 같은 여러 가지 혁신적인 기능을 통합합니다. 이러한 기능은 네트워크 성능과 효율성을 최적화할 뿐만 아니라 AI 애플리케이션 응답성과 처리 기능을 크게 향상시켜 생성 AI 분야 사용자를 위한 효율적이고 안정적인 컴퓨팅 기반을 구축합니다.

이 고도로 통합된 솔루션은 기존 이더넷과 InfiniBand 간의 격차를 메우고, AI 클라우드 시장에 맞춤형 고성능 네트워크 지원을 제공하는 데 중점을 둡니다. AI 애플리케이션의 높은 대역폭, 낮은 대기 시간 및 유연한 확장에 대한 엄격한 요구 사항을 충족하고, 이더넷 기술 트렌드를 AI 특정 시나리오 최적화로 이끌고, 이 새롭고 유망한 시장을 개발하고 확장하는 것을 목표로 합니다.

Spectrum-X의 기술적 장점은 프랑스 클라우드 서비스 제공업체 Scaleway와의 적용 사례에서 잘 드러납니다. 1999년에 설립된 Scaleway는 Mistral AI, Aternos, Hugging Face, Golem.ai를 포함한 80개 이상의 글로벌 고객에게 고성능 인프라와 25,000개 이상의 클라우드 제품과 서비스를 제공합니다. Scaleway는 혁신적인 솔루션을 개발하고 사용자가 처음부터 AI 프로젝트를 구축하고 확장할 수 있도록 돕는 원스톱 클라우드 서비스를 제공합니다.

현재 Scaleway는 대규모 AI 모델 교육, 추론 및 배포를 위한 GPU 인프라를 제공하는 지역 AI 클라우드를 구축하고 있습니다. NVIDIA의 Hopper GPU와 Spectrum-X 네트워크 플랫폼을 채택함으로써 AI 컴퓨팅 성능이 크게 향상되고, AI 교육 시간이 단축되었으며, AI 솔루션 개발, 배포 및 출시 시간이 가속화되어 ROI가 효과적으로 개선되었습니다. Scaleway의 고객은 몇 개의 GPU에서 수천 개로 확장하여 모든 AI 사용 사례를 충족할 수 있습니다. Spectrum-X는 멀티 테넌트, 멀티태스크 AI 환경에 필요한 성능과 보안을 제공할 뿐만 아니라 동적 라우팅, 혼잡 제어 및 글로벌 공유 버퍼와 같은 메커니즘을 통해 성능 격리를 달성합니다. 또한 NetQ는 RoCE 트래픽 카운터, 이벤트 및 WJH(What Just Happened) 알림과 같은 기능을 통해 AI 네트워크 상태에 대한 심층적인 가시성을 제공하여 AI 네트워크 시각화, 문제 해결 및 검증을 지원합니다. NVIDIA Air 및 Cumulus Linux의 지원을 통해 Scaleway는 API 기반 네트워크 환경을 DevOps 툴체인에 통합하여 배포에서 운영으로의 원활한 전환을 보장할 수 있습니다.

코멘트 남김

위쪽으로 스크롤