Computex에서 NVIDIA는 Spectrum-X 플랫폼을 통해 AI 워크로드에 "무손실 이더넷"을 제공하겠다고 약속했습니다. 하지만 브로드컴에 물어보면 이는 새로운 아이디어도 아니다. Broadcom의 Core Switching Group 수석 부사장인 Ram Velaga는 "그들의 장치에는 특별한 것이 없습니다."라고 언급했습니다. 그는 NVIDIA가 본질적으로 꼬리 대기 시간(응답 시간의 높은 백분위수)을 최소화하고 AI 작업 완료 시간을 줄이는 방식으로 정체를 관리하는 데 탁월한 수직 통합 이더넷 플랫폼을 구축하고 있다고 설명했습니다. Velaga는 이것이 Broadcom이 Tomahawk5 및 Jericho3-AI 스위치 ASIC로 수행한 것과 다르지 않다고 생각합니다. 그는 또한 이 스위치의 출시를 AI에서 GPU 흐름을 처리하는 이더넷의 중요성에 대한 NVIDIA의 인식으로 보고 있습니다.
NVIDIA와 관련하여 회사는 InfiniBand 네트워킹을 포기하지 않았습니다. 실제로 이들은 멜라녹스를 인수하기 위해 상당한 금액(17억 달러)을 투자했다. InfiniBand는 다음과 같이 소수의 매우 큰 워크로드를 실행하는 사용자에게 매우 적합합니다. GPT-3 또는 디지털 트윈. 그러나 NVIDIA 네트워킹 사업부의 마케팅 부사장인 Gilad Shainer는 특정 환경, 특히 다중 테넌트 클라우드에서는 이더넷이 선호되는 선택이라고 설명했습니다. Shainer는 기존의 이더넷 인프라가 더 작은 AI/ML 워크로드에 잘 작동하지만 이제 이러한 워크로드의 증가가 단일 노드 기능을 초과하여 속도가 느려졌다고 말했습니다. NVIDIA의 Spectrum-X 플랫폼은 이 문제를 해결한다고 주장합니다.
NVIDIA의 Spectrum-X는 독립형 제품이 아닙니다. NVIDIA의 51.2Tbit/sec Spectrum-4 이더넷 스위치 및 BlueField-3 데이터 처리 장치(DPU)를 포함한 핵심 구성 요소와 함께 하드웨어와 소프트웨어의 조합입니다. 기본 아이디어는 NVIDIA의 스위치와 DPU를 함께 사용할 때 트래픽 혼잡을 완화하기 위해 협력하고 NVIDIA를 믿는다면 패킷 손실을 완전히 제거한다는 것입니다.
Shainer는 이것이 NVIDIA의 새로운 기능 단위라고 주장하지만 Velaga는 "무손실 이더넷"이라는 개념이 단지 마케팅일 뿐이라고 믿습니다. "무손실이라고 부르는 대신에 매우 효율적인 이더넷 구조를 갖는 지점까지 혼잡을 효과적으로 관리한다고 말하는 것이 더 정확합니다."라고 그는 논평했습니다.
또한 Velaga는 이 정체 관리 기능이 Broadcom의 최신 세대 스위치 ASIC에 내장되어 있으며 모든 공급업체 또는 클라우드 서비스 제공업체의 smartNIC 또는 DPU에서만 사용할 수 있다고 주장합니다. “NIC에서 할 필요가 없습니다. 하나의 Jericho3-AI 리프에서 다른 Jericho3-AI 리프로 이동할 수 있습니다.”라고 그는 덧붙였습니다.
Broadcom의 Tomahawk5와 Jericho3-AI에 대한 질문에 Shainer는 Spectrum-X가 자체 범주에 속하며 일부 공급업체가 단순히 기존 제품에 "AI"를 추가하고 있음을 암시하면서 비교를 거부했습니다. “무엇이라고 부르든 AI를 위해 특별히 설계된 기능은 없습니다.”라고 그는 말했습니다.
Velaga에 따르면 NVIDIA는 이더넷 혼잡을 해결하기 위해 수직 통합을 시도하고 있습니다. “이더넷이 오늘날 성공한 이유는 매우 개방적인 생태계이기 때문입니다.”라고 그는 말했습니다. 이 때문에 NVIDIA의 Spectrum-X는 공급업체 종속을 피하는 것을 선호하는 클라우드 제공업체에 판매하기 어려울 수 있습니다. 그들은 SONiC과 같은 공급업체에 구애받지 않는 네트워크 운영 체제의 광범위한 채택으로 이어지는 상황을 피하고 싶어합니다. 이를 통해 호환되는 모든 스위치에서 클라우드를 실행할 수 있습니다.
가치 측면에서 NVIDIA의 Spectrum-4는 실제로 SONiC와 자체 Cumulus NOS 및 Linux 스위치 드라이버를 지원합니다. 그러나 Spectrum-4와 BlueField를 동시에 사용하는 Spectrum-X 플랫폼으로 인해 기능 손실 없이 하나를 다른 호환 SONiC 스위치 또는 DPU로 간단하게 교체할 수 없습니다.
DPU와 관련하여 많은 주요 클라우드 서비스 제공업체는 이미 환경에 맞는 SmartNIC를 보유하고 있습니다. Amazon Web Services에는 Nitro가 있고 Google은 ASIC 기반 스마트NIC Intel과 함께, 그리고 Microsoft는 1월에 Fungible을 인수했습니다. 이러한 장치는 일반적인 네트워킹, 스토리지 및 보안 워크로드를 오프로드하여 CPU를 확보하여 테넌트 워크로드를 실행할 수 있으므로 클라우드 공급자에게 매우 귀중합니다.
Shainer는 그것이 완전히 가능하다고 말했습니다. 그는 클라우드 공급자가 기존 DPU를 활용하여 인프라를 관리하고 남북 트래픽을 제어하는 동시에 NVIDIA의 BlueField-3를 사용하여 클러스터의 노드 간 동서 트래픽을 관리할 수 있다고 믿습니다.
그는 사람들이 NVIDIA의 스위치나 DPU를 독립형 제품으로 배포하는 것을 막을 방법이 없다고 덧붙였습니다. “누군가 우리 스위치를 사용하고 자신만의 솔루션을 만들고자 한다면 환영합니다. 누군가 우리 DPU를 사용하고 다른 사람의 스위치를 사용하고 싶다면 물론 진행하십시오. 이러한 구성 요소를 직접 개발할 수 있습니다.”라고 Shainer는 말했습니다.
그러나 Broadcom의 Velaga는 고객이 이 아이디어를 어떻게 받아들일지 확신하지 못했습니다. “모든 것이 무너지고 있는 세상에서 수직 통합된 이더넷 솔루션의 가치가 어떻게 판매될 것인지 말하기는 어렵습니다.”라고 그는 말했습니다.
관련 상품:
- OSFP-400G-FR4 400G FR4 OSFP PAM4 CWDM4 2km LC SMF FEC 광 트랜시버 모듈 $900.00
- OSFP-400G-DR4+ 400G OSFP DR4+ 1310nm MPO-12 2km SMF 광 트랜시버 모듈 $879.00
- OSFP-400G-LR4 400G LR4 OSFP PAM4 CWDM4 LC 10km SMF 광 트랜시버 모듈 $1199.00
- OSFP-400G-SR4-FLT 400G OSFP SR4 플랫 탑 PAM4 850nm OM30 MTP/MPO-3 다중 모드 FEC 광 트랜시버 모듈의 OM50/4m에서 12m $650.00
- QSFP-DD-400G-LR4 400G QSFP-DD LR4 PAM4 CWDM4 10km LC SMF FEC 광 트랜시버 모듈 $650.00
- QSFP-DD-400G-SR4.2 400Gb/s QSFP-DD SR4 BiDi PAM4 850nm/910nm 100m/150m OM4/OM5 MMF MPO-12 FEC 광 트랜시버 모듈 $1000.00
- QSFP112-400G-DR4 400G QSFP112 DR4 PAM4 1310nm 500m MTP/MPO-12(KP4 FEC 광 트랜시버 모듈 포함) $1350.00
- QSFP112-400G-FR4 400G QSFP112 FR4 PAM4 CWDM 2km 쌍신회로 LC SMF FEC 광 트랜시버 모듈 $1760.00
- QSFP112-400G-SR4 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC 광 트랜시버 모듈 $990.00
- QSFP-DD-400G-DR4 400G QSFP-DD DR4 PAM4 1310nm 500m MTP / MPO SMF FEC 광 트랜시버 모듈 $450.00
- QSFP-DD-400G-SR8 400G QSFP-DD SR8 PAM4 850nm 100m MTP / MPO OM3 FEC 광 트랜시버 모듈 $180.00
- QSFP-DD-800G-DR8 800G-DR8 QSFP-DD PAM4 1310nm 500m DOM MTP/MPO-16 SMF 광 트랜시버 모듈 $1300.00
- OSFP-800G-SR8 OSFP 8x100G SR8 PAM4 850nm MTP/MPO-16 100m OM4 MMF FEC 광 트랜시버 모듈 $750.00
- QSFP-DD-800G-DR8D QSFP-DD 8x100G DR PAM4 1310nm 500m DOM 듀얼 MPO-12 SMF 광 트랜시버 모듈 $1500.00
- NVIDIA MCX623106AN-CDAT SmartNIC ConnectX®-6 Dx EN 네트워크 인터페이스 카드, 100GbE 듀얼 포트 QSFP56, PCIe4.0 x 16, Tall&Short 브래킷 $1200.00
- NVIDIA Mellanox MCX516A-CCAT SmartNIC ConnectX®-5 EN 네트워크 인터페이스 카드, 100GbE 듀얼 포트 QSFP28, PCIe3.0 x 16, Tall&Short 브래킷 $985.00