Marvell 51.2T(64포트 800G) 스위치 내부 살펴보기

오늘은 64GbE의 800개 포트에 걸친 대형 스위치의 내부를 살펴보겠습니다. Marvell Teralynx 10은 51.2Tbps 스위치로, 2025년까지 AI 클러스터의 핵심 구성 요소가 될 예정입니다. 이 상당한 네트워크 스위치는 매우 매력적입니다.

마벨 51.2T

Marvell은 Innovium Teralynx 2021 기반 7x 32GbE 스위치를 검토한 후 400년에 Innovium을 인수했습니다. 이전에 이 스타트업의 12.8Tbps(32포트 400GbE) 세대 스위치를 분해했습니다.

Innovium Teralynx 7 기반 32x 400GbE 스위치

Innovium은 세대에서 가장 성공적인 스타트업으로 부상하여 하이퍼스케일 데이터 센터에 상당한 진출을 했습니다. 예를 들어, 2019년에 Intel은 이더넷 스위치 칩을 얻기 위해 Barefoot Networks를 인수한다고 발표했습니다. 그러나 4년 2022분기에 Intel은 이 이더넷 스위치 사업을 매각할 의사를 밝혔습니다. Broadcom은 상업용 스위치 칩 시장에서 중요한 위치를 차지하고 있으며, Innovium/Marvell은 많은 투자를 했지만 실패한 다른 회사와 달리 하이퍼스케일 데이터 센터에 성공적으로 진출했습니다.

AI 혁신으로 새로운 진입점 창출

AI 클러스터 구축의 규모를 감안할 때, 51.2Tbps 스위치 칩 세대는 상당합니다. 우리는 Marvell이 2021년 Teralynx 7 분해를 업데이트하고 새로운 Marvell Teralynx 10에 대한 통찰력을 제공할 수 있는지 물었습니다.

스위치의 전면도

스위치는 주로 OSFP 케이지와 공기 흐름 채널로 구성된 2U 섀시를 특징으로 합니다. 총 64개의 OSFP 포트가 있으며 각각 800Gbps로 작동합니다.

스위치는 2U 섀시를 갖추고 있습니다

각 포트에는 OSFP 플러그형 광학 장치가 장착되어 있으며, 이는 일반적으로 여러분이 알고 있는 QSFP+/QSFP28 세대 장치보다 큽니다.

OSFP 플러그형 광학 장치

Marvell은 Inphi 인수에서 얻은 구성 요소를 활용하여 여러 광 모듈을 출시했습니다. Marvell COLORZ 800G 실리콘 포토닉스 모듈과 차세대 네트워크를 위한 Orion DSP와 같은 다양한 맥락에서 이에 대해 논의했습니다. 이 스위치는 이러한 광 모듈을 활용할 수 있으며 포트는 800Gbps가 아닌 다른 속도로 작동할 수 있습니다.

Marvell COLORZ 800G 실리콘 광자 모듈

흥미로운 측면 중 하나는 수백 킬로미터 이상에서 800Gbps를 달성할 수 있는 장거리 광 모듈입니다. 이 모듈은 OSFP 케이지에 맞으며 수년간 업계 표준이었던 대형 장거리 광 박스가 필요하지 않습니다.

이 모듈은 OSFP 케이지에 맞습니다.

OSFP 모듈은 통합 방열판을 가질 수 있으므로 케이지에 방열판이 필요 없습니다. 일부 100GbE 및 400GbE 스위치에서는 모듈의 높은 전력 소모로 인해 광 케이지에 방열판이 필요합니다.

광학 케이지에는 방열판이 필요합니다.

스위치의 오른쪽에는 관리 포트와 콘솔 포트가 있습니다.

관리 및 콘솔 포트

스위치 뒷면에는 팬과 전원 공급 장치가 들어 있으며, 각각에 팬이 달려 있습니다.

스위치 뒷면에는 팬과 전원 공급 장치가 들어 있습니다.

이 스위치는 약 1.8kW를 소모하는 광 모듈을 사용할 수 있고 500W 스위치 칩을 탑재하고 있다는 점을 감안하면 2kW 이상의 전원 공급 장치가 예상됩니다.

500W 스위치 칩

다음으로, 스위치 내부를 살펴보고 OSFP 케이지에 어떤 전원이 공급되는지 알아보겠습니다.

오른쪽에 있는 OSFP 케이지에서 시작해서 왼쪽에 있는 전원 공급 장치와 팬으로 이동하겠습니다.

스위치 개요

스위치를 열면 가장 먼저 눈에 띄는 것은 커다란 방열판입니다.

큰 방열판

비교를 위해 만료된 여권과 함께 표시된 이 방열판은 매우 견고합니다.

이 방열판은 크기를 비교하기 위해 만료된 여권과 함께 표시됩니다.

방열판의 밑면 모습입니다.

방열판의 밑면 모습입니다.

칩 자체는 500W, 5nm 부품입니다.

칩 자체는 500W, 5nm 부품입니다.

마벨은 방열판 없이도 칩을 청소하여 몇 장의 사진을 찍는 것을 허용했습니다.

방열판 없이

이를 통해 방열판 없이 OSFP 케이지를 명확하게 볼 수 있습니다.

방열판 없이 OSFP 케이지를 명확하게 볼 수 있음

이러한 관점에서 보면 스위치 PCB가 두 블록 사이에 위치하기 때문에 OSFP 케이지는 32개뿐입니다.

OSFP 케이지는 32개만 있음

OSFP 케이지 뒤에는 Teralynx 10 칩이 있습니다.

OSFP 케이지는 32개만 있음

관심 있는 분들을 위해 Teralynx 10에 대한 더 자세한 정보는 앞서 소개한 기능 다이어그램에서 확인할 수 있습니다.

기능 다이어그램

눈에 띄는 차이점 중 하나는 스위치의 많은 구성 요소가 스위치 칩의 가장자리와 수평이나 평행이 아닌 각도를 이루고 있다는 것입니다.

스위치의 많은 구성 요소가 각도를 이루고 있습니다

다음은 스위치의 탑다운 사진으로, 64포트 800GbE 스위치 칩을 보여줍니다. 서버 기술에 익숙한 분들을 위해, PCIe Gen800 시대의 6GbE 단일 포트 NIC를 살펴보고 있지만, 오늘날에는 400GbE PCIe Gen5 x16 NIC가 있습니다. 이 칩은 오늘날 사용 가능한 가장 빠른 128 PCIe Gen5 400GbE NIC를 처리할 수 있는 용량을 가지고 있습니다.

가장 빠른 128 PCIe Gen5 400GbE NIC

많은 스위치와 마찬가지로 Teralynx 10 스위치는 Marvell Octeon 관리 보드를 기반으로 하는 전담 관리 컨트롤러를 가지고 있습니다. 다른 스위치는 x86을 사용할 수 있다는 정보를 받았습니다.

마벨 옥테온 경영진

M.2 SSD는 주 전원 분배판에 있습니다.

M.2 SSD는 주 전원 분배판에 있습니다.

흥미로운 기능은 진단을 위한 내장 PCIe 슬롯입니다.

흥미로운 기능은 진단을 위한 내장 PCIe 슬롯입니다.

바로 아래에는 관리 인터페이스로 내부에 노출된 10Gbase-T 포트가 있습니다.

바로 아래에는 관리 인터페이스로 내부에 노출된 10Gbase-T 포트가 있습니다.

고려해야 할 또 다른 측면은 스위치 PCB의 두께입니다. 서버 마더보드가 이렇게 두꺼웠다면 많은 1U 서버 설계가 상당한 냉각 문제에 직면했을 것입니다. 냉각 측면에서 스위치는 비교적 간단한 팬 설정을 갖추고 있으며 섀시 후면에 XNUMX개의 팬 모듈이 있습니다.

섀시 후면에 4개의 팬 모듈

Marvell은 다른 건물에 이 스위치를 테스트하는 실험실을 두고 있습니다. 회사는 우리가 작동 중인 스위치를 사진으로 찍을 수 있도록 실험실을 일시적으로 비웠습니다.

이 스위치는 테스트되었습니다

뒷면은 이렇습니다.

뒤의 모습

Teralynx 10 스위치 옆에는 Keysight Ixia AresONE 800GbE 테스트 상자가 있습니다.

Keysight Ixia AresONE 800GbE 테스트 상자.

단일 포트에서 800GbE 트래픽을 생성하는 것은 서버에서 PCIe Gen5 x16보다 빠르기 때문에 쉬운 일이 아닙니다. 이 장치가 실험실에서 작동하는 것을 보는 것은 흥미로웠습니다. 우리는 이전에 10GbE 테스트를 위해 깔끔한 중고 Spirent 상자를 구입했지만 Spirent는 미디어/분석가 라이선스를 제공하지 않았습니다. 이 800GbE 상자와 같은 장치는 엄청나게 비쌉니다.

800GbE 박스

이 회사는 또한 100GbE 테스트를 위해 실험실에 더 큰 섀시를 보유하고 있습니다. 스위치 공급업체인 Marvell은 다양한 조건에서 성능을 검증하기 위해 이러한 장비가 필요합니다.

듀얼 400GbE 실행 중

다음은 Teralynx 스위치를 통해 약 400%의 라인 속도로 실행되는 듀얼 99.3GbE의 예입니다.

약 99.3% 라인 속도의 Teralynx 스위치

왜 51.2Tbps 스위치를 선택해야 하나요?

시장에서 51.2T 스위치 채택을 주도하는 두 가지 주요 요인이 있습니다. 첫 번째는 AI라는 항상 인기 있는 주제이고, 두 번째는 전력 소비와 라딕스의 영향입니다.

51.2Tbps 스위치를 선택하는 이유

Marvell의 Teralynx 10은 엄청난 대역폭을 제공하는 동시에 약 500나노초의 지연 시간을 제공합니다. 스위치 칩의 혼잡 제어, 프로그래밍 가능성 및 원격 측정 기능과 결합된 이 예측 가능한 지연 시간은 대규모 클러스터가 최적의 성능을 유지하도록 하는 데 도움이 됩니다. 네트워크를 기다리는 동안 AI 가속기를 유휴 상태로 두는 것은 매우 비용이 많이 드는 제안입니다.

Teralynx 10은 약 500나노초의 대기 시간을 제공합니다.

또 다른 예는 radix입니다. 더 큰 스위치는 스위칭 계층의 수를 줄일 수 있으며, 이는 클러스터를 연결하는 데 필요한 스위치, 파이버, 케이블 및 기타 구성 요소의 수를 줄입니다.

더 큰 스위치는 스위칭 계층의 수를 줄일 수 있습니다.

Teralynx 10은 512의 라딕스를 처리할 수 있고 최대 512개의 100GbE 링크를 통해 연결할 수 있으므로 일부 네트워크는 1단계의 스위칭이 필요한 것을 XNUMX단계로 줄일 수 있습니다. 대규모 AI 훈련 클러스터에서 이는 자본 장비를 절약할 뿐만 아니라 전력 소비도 크게 줄입니다. Marvell은 더 큰 라딕스가 전력 소비를 XNUMXMW 이상 줄일 수 있는 예를 제공했습니다.

Teralynx 10은 512의 기수를 처리할 수 있습니다.

Marvell은 또한 섀시에서 뻗어 나온 흥미로운 쿨러가 있는 스위치를 보여주는 슬라이드를 공유했습니다. 이것은 데스크톱 프로토타입인 듯하며, 우리는 그것이 매우 흥미로웠습니다.

섀시에서 확장된 흥미로운 쿨러.

마지막으로, 온라인 및 데이터 센터 사진에서 스위치의 앞면과 뒷면을 자주 보지만, 이러한 스위치가 내부적으로 어떻게 작동하는지 보는 일은 드뭅니다. Marvell 덕분에 스위치가 작동하는 모습을 보고 실리콘까지 분해할 수 있었습니다.

작동중인 스위치

현재 Marvell의 자회사인 Innovium은 Broadcom과 성공적으로 경쟁하고 하이퍼스케일에서 승리한 업계의 몇 안 되는 팀 중 하나입니다. 우리는 다른 주요 실리콘 공급업체가 이 과정에서 실패하는 것을 보았습니다. AI 클러스터에서 높은 기수, 고대역폭, 저지연 스위칭에 대한 시장 수요를 감안할 때 Teralynx 10은 Teralynx 7 이후로 회사의 가장 큰 제품 라인이 될 가능성이 높습니다. 이 분야의 경쟁은 치열합니다.

Teralynx 10은 회사의 가장 큰 제품 라인이 될 가능성이 높습니다.

물론 모든 네트워크에는 여러 계층이 있습니다. 소프트웨어, 성능 등은 말할 것도 없고 광 모듈에 대한 포괄적인 연구를 수행할 수도 있습니다. 그러나 이러한 스위치 내부에서 무슨 일이 일어나는지 보여주는 것은 여전히 ​​매우 흥미롭습니다.

코멘트 남김

위쪽으로 스크롤