NVIDIA가 스위치를 만드는 이유는 무엇입니까? 제너레이티브 AI와 어떤 관련이 있습니까?

Computex에서 대부분의 관심은 NVIDIA의 새로운 DGX GH200 및 MGX에 집중되었습니다. 둘 다 참조 설계인지 전체 서버인지에 관계없이 NVIDIA의 시스템 수준 AI 제품입니다. CPU 및 GPU와 관련된 칩, 보드 및 시스템은 AI 및 HPC가 그만큼 대중적이기 때문에 항상 NVIDIA의 뜨거운 주제였습니다.

그러나 실제로 AI HPC, 특히 생성 AI 또는 현재 많은 사람들이 "대형 모델" 컴퓨팅이라고 부르는 맥락에서 네트워킹도 매우 중요합니다. 즉, 문제를 해결하기 위해 함께 작동하려면 많은 수의 서버가 필요하고 시스템과 노드에 걸쳐 컴퓨팅 성능을 확장하려면 대규모 클러스터가 필요합니다. 따라서 성능 문제는 노드 내 CPU, GPU 및 AI 칩의 컴퓨팅 성능에 관한 것이 아닙니다.

앞서 구글은 전체 AI 인프라에서 시스템 수준 아키텍처의 중요성이 TPU 칩 마이크로 아키텍처보다 훨씬 높다고 언급한 바 있다. 물론 이 "시스템 수준"이 반드시 노드 전체의 네트워킹을 포함하는 것은 아니지만 분명히 많은 칩이 함께 작동하여 계산을 수행할 때 시스템과 네트워크가 성능 병목 현상이 됩니다.

그렇기 때문에 시장에서 기존 제품을 판매하거나 경쟁하는 주관적인 방법이 아니라 DPU가 매우 중요합니다. NVIDIA의 DPU 및 기타 네트워킹 제품은 주관적으로 다른 제품과 경쟁하거나 시장의 기존 제품과 경쟁하는 것과는 달리 자체 제품의 짧은 보드 보충에 가깝습니다. 이러한 관점에서 NVIDIA의 하드웨어 제품은 수평적으로 완전한 생태계를 구성합니다. 예를 들어 DPU는 주관적으로 누구와도 경쟁하기 위한 것이 아니라 기존 제품의 일부입니다.

컴퓨텍스

Computex에서 NVIDIA는 Spectrum-X 이더넷 플랫폼을 중심으로 하는 네트워킹 제품을 발표했습니다. NVIDIA는 이것이 AI, 특히 "새로운 종류의 이더넷이 필요한 생성 AI 워크로드"를 위해 특별히 설계된 세계 최초의 고성능 이더넷 제품이라고 주장합니다. 우리는 과거에 데이터 처리 장치(DPU)를 포함하여 NVIDIA의 네트워킹 제품에 대해 많이 이야기하지 않았습니다. Spectrum-X의 도입과 함께 이 기사에서는 이 이더넷 제품과 NVIDIA 네트워킹 제품의 논리에 대해 논의하려고 시도합니다.

NVIDIA가 "스위치"를 만들고자 하는 이유는 무엇입니까?

Spectrum-X 플랫폼 내부의 두 가지 핵심 구성 요소는 Spectrum-4 이더넷 스위치와 BlueField-3 DPU입니다. DPU에 대한 부분은 많이 설명되어 있지 않습니다. Spectrum 스위치와 관련된 다른 부분인 실제 GTC는 작년에 NVIDIA가 Spectrum-4 400Gbps 스위치를 출시했습니다. 칩 레벨은 Spectrum ASIC을 기반으로 합니다. Huang Renxun은 Computex 기조연설에서 칩을 선보였습니다. 이 칩은 100억 개의 트랜지스터, 90x90mm, 칩 패키지 하단에 800개의 솔더 볼, 500W 전력 소비를 포함하는 거물입니다.

Huang Renxun이 칩을 보여주었습니다.

Spectrum-4 이더넷 스위치 시스템인 AI를 위해 특별히 제작된 "최초의 고성능 이더넷 아키텍처" 발표가 이제 CSP에서 가능합니다.

그림에서 보듯이 이 시스템은 총 128개의 포트와 기존 이더넷 스위치의 51.2배인 2800TB/s의 대역폭 용량을 자랑합니다. 회사에 따르면 이 새로운 기술을 통해 네트워크 엔지니어, AI 데이터 과학자 및 클라우드 서비스 제공업체는 더 빠른 속도로 결과를 생성하고 의사 결정을 내리는 동시에 생성 AI 클라우드를 사용할 수 있습니다. 높은 대역폭과 짧은 대기 시간은 노드 전체에서 GPU 확장 중 성능 병목 현상을 완화하는 데 중요합니다. 전체 스위치는 XNUMXW의 전력을 소비합니다.

시스템은 총 128개의 포트를 자랑합니다.

작년 GTC에서 NVIDIA는 이 스위치가 일상적인 "마우스 흐름" 트래픽을 처리하는 기존 네트워크 스위치와 경쟁하기 위한 것이 아니라 "코끼리 흐름" 트래픽 처리에 중점을 두어 대규모 AI, 디지털 쌍둥이 및 시뮬레이션 응용 프로그램.

“기존 스위치는 현재의 생성 AI 워크로드를 처리하기에는 너무 느립니다. 게다가 우리는 여전히 AI 혁명의 시작점에 있습니다. 기존 스위치는 상용 클라우드에는 충분할 수 있지만 생성 AI를 포함하는 AI 클라우드 로드에 필요한 성능을 제공할 수 없습니다.”라고 기조 연설에서 NVIDIA의 네트워킹 SVP인 Gilad Shainer가 말했습니다.

사전 브리핑 중에 기자는 NVIDIA Spectrum이 Arista 및 다른 회사의 스위치와 직접 경쟁하는지 구체적으로 물었습니다. Shainer의 답변은 경쟁이 없다는 것입니다. 그러나 현재 시장에는 이더넷용 생성 AI의 요구 사항을 충족할 수 있는 솔루션이 없습니다. 생성 AI의 동서 트래픽을 위한 세계 최초의 이더넷 네트워크인 Spectrum-4는 특히 이 목표를 목표로 하는 완전히 새로운 이더넷 솔루션을 만들었습니다.” Shainer는 또한 브리핑에서 Broadcom의 기존 스위칭 제품이 Spectrum-4와 경쟁하지 않는다고 언급했습니다. NVIDIA는 Spectrum-X가 무손실 이더넷 네트워크를 생성한다고 강조하며 이는 Spectrum-X 플랫폼을 설명하는 데 특히 중요할 수 있습니다.

InfiniBand 대 이더넷

이더넷은 시간이 지남에 따라 발전했습니다. 무손실은 이더넷이 원래 손실이 많은 네트워크 환경을 위해 설계되었기 때문에 특정합니다. 즉, 이 네트워크에서는 패킷 손실이 허용됩니다. 신뢰성을 보장하기 위해 IP 네트워크의 상위 계층에는 TCP 프로토콜이 필요합니다. 즉, 패킷 전송 중에 패킷 손실이 발생하면 TCP 프로토콜을 통해 보낸 사람이 손실된 패킷을 다시 전송할 수 있습니다. 그러나 이러한 오류 수정 메커니즘으로 인해 대기 시간이 증가하여 특정 유형의 애플리케이션에 문제가 발생할 수 있습니다. 또한 네트워크의 갑작스러운 트래픽 급증을 처리하기 위해 스위치는 임시로 정보를 저장하기 위해 추가 캐시 리소스를 할당해야 합니다. 이것이 이더넷 스위치 칩이 유사한 사양의 InfiniBand 칩보다 더 크고 더 비싼 이유입니다.

그러나 "손실 네트워크는 고성능 컴퓨팅(HPC) 데이터 센터에 적합하지 않습니다." Huang Renxun은 "HPC 워크로드를 실행하는 데 드는 전체 비용은 매우 높으며 네트워크 손실은 감당하기 어렵습니다."라고 말했습니다. 또한 성능 격리와 같은 요구 사항으로 인해 손실 네트워크는 실제로 견디기 어렵습니다. NVIDIA는 InfiniBand라는 네트워킹 통신 표준을 사용해 왔습니다. InfiniBand는 일반적으로 높은 처리량과 짧은 대기 시간이 필요한 HPC 애플리케이션에 사용됩니다. 보다 보편적인 이더넷과 달리 InfiniBand는 데이터 집약적인 애플리케이션에 더 적합합니다.

InfiniBand는 NVIDIA 전용이 아닙니다. 원래 Intel, IBM, Microsoft 등 여러 회사에서 개발했으며 IBTA라는 전문 제휴도 있었습니다. Mellanox는 2000년경에 InfiniBand 제품을 홍보하기 시작했습니다. Wikipedia의 소개에 따르면 InfiniBand의 초기 목표는 기계실과 클러스터를 상호 연결하는 I/O 및 이더넷의 PCI를 대체하는 것이었습니다.

아쉽게도 인피니밴드는 닷컴 거품이 꺼지는 시기에 개발되어 개발이 억제되었습니다. Intel 및 Microsoft와 같은 참가자는 모두 새로운 선택권을 가졌습니다. 그러나 500년 슈퍼컴퓨터 TOP2009 목록에 따르면 이미 181개의 내부 연결이 있었습니다. 인피니밴드 (나머지는 이더넷이었습니다.) 2014년까지 그들 중 절반 이상이 InfiniBand를 사용하고 있었지만, 그 후 10년 동안 2019Gb 이더넷이 빠르게 따라잡았습니다. XNUMX년 NVIDIA가 Mellanox를 인수했을 때 Mellanox는 이미 시장에서 InfiniBand 통신 제품의 주요 공급업체가 되었습니다.

디자인 관점에서 1980년대에 탄생한 이더넷은 여러 시스템 간의 정보 상호 운용성 달성에만 관심이 있었습니다. 이와는 대조적으로 InfiniBand는 HPC 시나리오에서 대기 시간과 같은 클러스터 데이터 전송의 병목 현상을 제거하기 위해 탄생했으며 Layer 2 스위칭 처리 설계가 매우 직접적이어서 전달 대기 시간을 크게 줄일 수 있습니다. 따라서 높은 처리량, 낮은 대기 시간 및 높은 안정성과 같은 HPC, 데이터 센터 및 슈퍼 컴퓨터 클러스터에 자연스럽게 적합합니다.

높은 처리량, 낮은 대기 시간 및 높은 안정성

신뢰성의 관점에서 InfiniBand 자체는 네트워크 계층 1-4에 대한 완전한 프로토콜 정의를 가지고 있습니다. InfiniBand는 자체적으로 무손실 속성을 달성하는 종단 간 흐름 제어 메커니즘을 통해 패킷 손실을 방지합니다. 둘 사이의 또 다른 주요 차이점은 InfiniBand는 스위치 패브릭 네트워크 설계를 기반으로 하는 반면 이더넷은 공유 매체 공유 채널을 기반으로 한다는 것입니다. 이론적으로 전자가 네트워크 충돌 문제를 더 잘 피할 수 있습니다.

InfiniBand가 그렇게 좋은데 Nvidia가 이더넷을 개발하려는 이유는 무엇입니까? 직관에서 생각하면 이더넷의 시장 기반, 다양성 및 유연성이 중요한 요소가 되어야 합니다. Huang은 기조연설에서 순방향 호환성이 필요한 "모든 데이터 센터에 제너레이티브 AI를 도입하고 싶다"고 말했습니다. "많은 기업이 이더넷을 배포하고 있습니다." "InfiniBand 기능을 확보하기가 어렵기 때문에 우리는 해당 기능을 이더넷 시장에 제공하고 있습니다. 이것이 Spectrum-4 출시 이면의 비즈니스 논리입니다. 그러나 우리는 그것이 전체 이야기가 아니라고 생각합니다.

NVIDIA는 이더넷과 InfiniBand 제품 모두를 개발 중이며, 전자는 Spectrum Ethernet 플랫폼이고 후자는 Quantum InfiniBand라고 합니다. 공식 페이지를 보면 InfiniBand 솔루션은 "HPC, AI 및 슈퍼클러스터 클라우드 인프라를 기반으로 더 낮은 비용과 복잡성으로 타의 추종을 불허하는 성능을 제공합니다"라고 나와 있고, Spectrum은 AI 및 클라우드를 위한 가속 이더넷 스위칭입니다. 분명히 둘은 어느 정도 경쟁하고 있습니다.

왜 이더넷인가?

그의 기조 연설에서 Huang은 다양한 유형의 데이터 센터를 과학적으로 설명했습니다. 실제로 작년 GTC에서 NVIDIA는 데이터 센터를 XNUMX개 범주로 명확하게 나누었습니다. 그리고 오늘 논의하는 AI 시나리오에서 데이터 센터는 두 가지 주요 범주로 나눌 수 있습니다. 한 범주는 많은 테넌트와 부하 간의 약한 종속성이 있을 수 있는 다양한 애플리케이션 부하 전체를 담당해야 하는 범주입니다.

그러나 일반적으로 슈퍼컴퓨팅 또는 현재 인기 있는 AI 슈퍼컴퓨팅과 같은 또 다른 범주가 있습니다. 여기에는 매우 적은 수의 테넌트(베어 메탈 1개)와 밀접하게 결합된 로드가 있어 대규모 계산 문제에 대해 높은 처리량을 요구합니다. 이 두 가지 유형의 데이터 센터에 필요한 인프라의 차이는 상당합니다. 직관적으로 판단하면 이더넷의 가장 원시적인 손실 환경은 후자의 요구 사항에 적합하지 않습니다. 그 이유는 이전 글에서 이미 다루었습니다.

SemiAnalysis는 최근 NVIDIA가 동시에 이더넷을 개발하기 위한 참조로 사용할 수 있는 InfiniBand의 많은 문제(주로 기술적 문제)에 대해 구체적으로 언급한 기사를 작성했습니다. 그들 중 일부는 참조를 위해 여기에서 추출됩니다. 실제로 InfiniBand와 이더넷 자체는 지속적으로 발전하고 있습니다.

InfiniBand의 흐름 제어는 크레딧 기반 흐름 제어 메커니즘을 사용합니다. 각 링크에는 링크 대역폭과 같은 특성을 반영하는 몇 가지 특정 크레딧이 사전 할당됩니다. 패킷이 수신되고 처리되면 수신 측에서 송신 측에 크레딧을 반환합니다. 이상적으로 이러한 시스템은 발신자가 더 많은 패킷을 보내기 전에 크레딧이 반환될 때까지 기다려야 하므로 네트워크에 과부하가 걸리지 않도록 합니다.

왜 이더넷인가

그러나 그러한 메커니즘에는 문제가 있습니다. 예를 들어, 송신 노드가 수신 노드가 데이터를 처리할 수 있는 속도보다 더 빠른 속도로 수신 노드로 데이터를 전송하면 수신 노드의 버퍼가 가득 찰 수 있습니다. 수신 노드는 송신 노드에 크레딧을 반환할 수 없으며 결과적으로 송신 노드는 크레딧이 소진되어 더 많은 데이터 패킷을 보낼 수 없습니다. 수신 노드가 크레딧을 반환할 수 없고 송신 노드가 다른 노드의 수신 노드이기도 한 경우 대역폭 과부하 시 크레딧을 반환하지 못하여 역압이 더 넓은 영역으로 확산될 수 있습니다. 다른 문제로는 다른 구성 요소로 인해 발생하는 교착 상태 및 오류율이 있습니다.

InfiniBand의 일부 고유한 문제는 시스템의 규모와 복잡성이 증가함에 따라 더욱 심각해집니다. 현재 상업적으로 구현된 가장 큰 InfiniBand 솔루션은 아마도 연구 클러스터가 총 16,000개의 NIC와 16,000개의 A100 GPU를 배포한 Meta의 것일 것입니다.

이 규모는 의심할 여지 없이 방대하지만 SemiAnalysis는 GPT-4 교육에 더 큰 규모가 필요할 것이며 향후 "대형 모델" 개발에는 클러스터 확장이 필요할 것이라고 말합니다. 이론적으로 InfiniBand는 전체 용량을 계속 확장할 수 있지만 고유한 문제의 영향으로 점점 더 어려움을 겪을 것입니다. 추론 관점에서 대기 시간과 성능은 여전히 ​​InfiniBand에서 이점을 얻을 수 있지만 추론 로드의 경우 다양한 요청이 다양한 속도로 지속적으로 전송됩니다. 또한 미래의 아키텍처는 동일한 대규모 클러스터 내에서 다양한 배치 크기에 여러 대형 모델을 포함해야 하므로 지속적인 크레딧 기반 흐름 제어 변경이 필요합니다.

신용 흐름 제어 메커니즘은 네트워크 환경 변화에 신속하게 대응하기 어렵습니다. 네트워크 내에 다양한 트래픽이 많은 경우 수신 노드의 버퍼 상태가 급격하게 변할 수 있습니다. 네트워크가 혼잡해지면 전송 노드는 여전히 이전 신용 정보를 처리하므로 문제가 더욱 복잡해집니다. 또한 송신 노드가 지속적으로 크레딧을 기다리고 데이터 전송의 두 상태 사이를 전환하면 쉽게 성능 변동을 일으킬 수 있습니다.

실용성 측면에서 NVIDIA의 현재 Quantum-2는 적어도 수치상으로는 Spectrum-25.6의 4TB/s보다 낮은 51.2TB/s의 대역폭을 달성합니다. 더 빠른 Quantum 칩과 인프라는 내년까지 사용할 수 없으므로 다른 속도를 만듭니다. 또한 비용 측면에서 GPU 기존 배포와 동일한 규모(8000+ GPU)를 달성하려면 추가 스위칭 레이어와 훨씬 더 많은 케이블(고가의 광 케이블)이 필요합니다. 따라서 일반적인 규모의 InfiniBand 네트워크 구축 비용은 이더넷보다 훨씬 높습니다. (DPU 및 NIC 여기에서 비용은 고려하지 않습니다.)

고객의 관점에서 보면 이더넷 시장은 InfiniBand보다 훨씬 크므로 배포 비용도 절감할 수 있습니다. 이더넷을 기반으로 하는 전통적인 서비스 프런트 엔드 시스템 및 고객을 위한 InfiniBand와의 공급업체 바인딩 문제와 같은 다른 특정 비교 요소가 있습니다. 이더넷은 분명히 더 많은 선택권을 제공하며 배포 탄력성과 확장성도 더 좋을 수 있습니다. 기술적 수준에서 이더넷을 위한 광 전송 인프라의 향후 배치에 잠재적인 가치가 있는 것 같습니다.

이는 NVIDIA가 이더넷에 중점을 두는 이론적 근거이거나 NVIDIA가 제너레이티브 AI 클라우드를 위해 이더넷을 선택한 이유의 일부일 수 있습니다. 그러나 참고용으로만 사용해야 하는 한 가지 이유는 InfiniBand가 NVIDIA에 의해 크게 발전했으며 많은 고유한 문제에 대한 해결책이 있다는 것입니다.

양자-2

마지막으로 처음에 언급한 이더넷이 원래 손실이 많은 네트워크라는 질문에 대해 이야기해 보겠습니다. 그러나 실제로 RoCE(RDMA over Converged Ethernet)와 같은 기술의 발전으로 InfiniBand의 장점 중 일부가 이더넷에도 적용되었습니다. 실제로 기술 확장은 InfiniBand의 고성능 및 무손실, 이더넷의 보편성, 비용 효율성 및 유연성 등 다양한 기술의 장점을 어느 정도 통합하는 것입니다.

Spectrum-X 플랫폼 기능에서 언급된 RoCE는 스위치 장치가 아닌 엔드포인트 측 NIC의 우선 순위 기반 흐름 제어(PFC)에 의존하여 이더넷 네트워크에서 무손실을 달성합니다. 또한 RoCE++에는 패킷 손실 및 도착 순서 문제를 처리하는 ASCK와 같은 몇 가지 새로운 최적화된 확장 기능이 있어 수신 측에서 송신 측에 손실 또는 손상된 패킷만 재전송하도록 알릴 수 있어 더 높은 대역폭 활용도를 달성할 수 있습니다. 또한 ECN, 흐름 제어 메커니즘 및 오류 최적화가 있으며 모두 효율성과 안정성 향상에 기여합니다. 또한 RoCE 네트워크를 사용하는 표준 이더넷에서 끝점 NIC의 확장성 문제를 완화하기 위해 Bluefield NIC 모드를 사용할 수 있으며 DPU의 전체 비용은 여전히 ​​이더넷 및 일부 새로운 기술에 의해 희석될 수 있습니다.

기조연설에서 Huang Renxun은 특히 이더넷에 두 가지 중요한 특성인 적응형 라우팅과 혼잡 제어를 제공하는 Spectrum-X를 언급했습니다. 또한 NVIDIA는 이전에 IDC와 협력하여 이더넷 스위칭 솔루션의 상업적 가치에 대한 백서 보고서를 발행했습니다.

대규모 AI 애플리케이션에서 아마도 이더넷은 미래에 불가피한 선택이 될 것입니다. 따라서 Spectrum-X 홍보에서 NVIDIA의 입장은 생성 AI의 동서 트래픽을 위한 "최초" 솔루션인 생성 AI 클라우드를 위해 특별히 준비되었습니다. 그러나 이더넷의 강력한 보편성보다 더 많은 이유가 있을 수 있습니다. AI HPC 부하에서 다음으로 포괄적으로 전환할 가능성이 있습니다. Ethernet.

서로 다른 규격의 개발은 그 자체로 서로의 부족한 점을 끊임없이 점검하고 보완하며 본질을 흡수하는 과정이다. InfiniBand와 마찬가지로 내재된 결함을 해결하기 위한 다양한 완화 솔루션이 있으며 InfiniBand의 일부 확장 속성은 AI에 적용하는 데에도 매우 유용합니다. 이것은 선택과 기술 발전 사이의 비교 문제입니다. 엔비디아가 미래에 InfiniBand 또는 이더넷 개발로 기울어질지 지켜볼 수 있습니다. 이 두 가지에 각각의 애플리케이션 시나리오가 있더라도 말입니다.

코멘트 남김

위쪽으로 스크롤