네트워크 프로토콜은 컴퓨터 네트워크에서 데이터를 교환하기 위해 수립된 규칙, 표준 또는 관례의 모음입니다. 법적 수준에서 OSI 7계층 프로토콜은 국제 프로토콜입니다.
HPC/AI의 높은 네트워크 처리량과 낮은 대기 시간에 대한 요구 사항으로 인해 TCP/IP는 데이터 센터에서 점차 RDMA로 전환되고 있습니다. RDMA에는 여러 가지 분기가 있습니다. 그 중 Infiniband는 RDMA를 위해 특별히 설계되었으며 하드웨어 수준에서 안정적인 전송을 보장합니다. 고급 기술을 사용하지만 가격이 비쌉니다. RoCE와 iWARP는 모두 이더넷 RDMA 기술을 기반으로 합니다.
이 글에서는 스위치와 AI의 관계를 논의하기 위해 다음과 같은 측면에 초점을 맞춥니다.
질문: 프로토콜이란 무엇인가요?
질문: 데이터 센터 아키텍처에서 스위치의 역할은 무엇인가요?
질문: NVIDIA 스위치 = IB 스위치?
질문: NVIDIA SuperPOD를 어떻게 이해하나요?
질문: 스위치 시장의 현 상황은 어떠한가?
프로토콜이란 무엇인가?
네트워크 프로토콜은 컴퓨터 네트워크에서 데이터를 교환하기 위해 수립된 규칙, 표준 또는 관례의 모음입니다. 법적 수준에서 OSI 1980계층 프로토콜은 국제 프로토콜입니다. XNUMX년대에 컴퓨터 간 통신 방법을 표준화하고 개방형 네트워크의 요구를 충족하기 위해 XNUMX계층 네트워크를 채택한 OSI(Open System Interconnection) 프로토콜이 제안되었습니다.
- 물리 계층: 하드웨어가 서로 통신하는 방식을 해결합니다. 주요 기능은 물리적 장치 표준(예: 인터페이스 유형, 전송 속도 등)을 정의하여 비트 스트림(0과 1로 표현되는 데이터 스트림)의 전송을 달성하는 것입니다.
- 데이터 링크 계층: 주요 기능은 프레임 코딩과 오류 정정 제어입니다. 구체적인 작업은 물리 계층에서 데이터를 수신하여 프레임으로 캡슐화한 다음 상위 계층으로 전송하는 것입니다. 마찬가지로 네트워크 계층의 데이터는 비트 스트림으로 분할하여 물리 계층으로 전송할 수 있습니다. 각 프레임에는 전송할 데이터 외에도 검증 정보가 포함되어 있기 때문에 오류 정정 기능을 달성할 수 있습니다.
- 네트워크 계층: 노드 간에 논리적 회로를 만들고 IP를 통해 주소를 찾습니다(네트워크의 각 노드에는 IP가 있음). 이 계층에서 전송되는 데이터는 패킷입니다.
- 전송 계층: 데이터 전송 품질을 모니터링하는 역할을 합니다. 패킷 손실이 발생하면 재전송해야 합니다.
- 세션 계층: 주요 기능은 네트워크 장치의 세션 연결을 관리하는 것입니다.
- 표현 계층: 주로 데이터 형식 변환, 암호화 등을 담당합니다.
- 애플리케이션 계층: 사용자에게 다양한 네트워크 서비스를 직접 제공하고 다양한 네트워크 작업을 완료할 수 있는 애플리케이션 인터페이스를 제공합니다.
TCP/IP는 다양한 프로토콜을 포함하는 프로토콜 스택입니다. 이러한 프로토콜은 대략 애플리케이션 계층, 전송 계층, 네트워크 계층, 데이터 링크 계층의 4개 계층으로 나눌 수 있습니다. 사실, TCP/IP 프로토콜은 OSI 7계층 프로토콜의 최적화된 버전으로 이해될 수 있습니다.
OSI 7계층 네트워크 모델과 TCP/IP 4계층 모델 비교
HPC의 높은 네트워크 처리량과 낮은 대기 시간에 대한 요구 사항으로 인해 TCP/IP는 점차 RDMA로 전환되고 있습니다. TCP/IP에는 몇 가지 주요 단점이 있습니다.
첫째, 수십 마이크로초의 지연이 있습니다. TCP/IP 프로토콜 스택은 전송 중에 여러 컨텍스트 전환이 필요하고 캡슐화를 위해 CPU에 의존하기 때문에 지연이 비교적 깁니다.
둘째, CPU 부하가 크다. TCP/IP 네트워크는 호스트 CPU가 프로토콜 스택 메모리 복사에 여러 번 참여해야 하며, CPU 부하와 네트워크 대역폭 간의 상관 계수가 너무 크다.
RDMA(Remote Direct Memory Access): 운영 체제 커널의 개입 없이 네트워크 인터페이스를 통해 메모리 데이터에 직접 액세스할 수 있습니다. 이를 통해 처리량이 높고 대기 시간이 짧은 네트워크 통신이 가능하므로 대량 병렬 컴퓨터 클러스터에서 사용하기에 특히 적합합니다.
RDMA의 세 가지 모드
RDMA는 전체 프로토콜 스택을 지정하지 않지만 특정 전송에 대한 높은 요구 사항을 제시합니다. 예를 들어 손실 없음, 높은 처리량, 낮은 지연 시간 등입니다. RDMA에는 다양한 분기가 포함되며, 그 중 Infiniband는 RDMA를 위해 특별히 설계되었으며 하드웨어 수준에서 안정적인 전송을 보장합니다. 기술적으로 진보되었지만 비용이 많이 듭니다. RoCE와 iWARP는 모두 이더넷 RDMA 기술을 기반으로 합니다.
데이터 센터 아키텍처에서 스위치의 역할은 무엇입니까?
스위치와 라우터는 서로 다른 수준에서 작동합니다. 스위치는 데이터 링크 계층에서 작동하며 MAC(네트워크 카드의 하드웨어 주소) 식별을 기반으로 데이터 패킷을 캡슐화하고 전달하여 다양한 장치가 서로 통신할 수 있도록 합니다. 경로 선택기라고도 하는 라우터는 네트워크 계층에서 상호 연결을 달성하고 IP 기반 주소 지정을 구현하며 다양한 하위 네트워크를 연결합니다.
기존 데이터 센터는 종종 액세스 계층, 집계 계층, 코어 계층이라는 3계층 아키텍처를 사용합니다. 그러나 소규모 데이터 센터에서는 집계 계층의 존재를 무시할 수 있습니다. 그 중 액세스 계층은 일반적으로 서버에 직접 연결되며, 일반적으로 TOR(Top of Rack) 스위치가 사용됩니다. 집계 계층은 네트워크 액세스 계층과 코어 계층 사이의 "중간 계층"입니다. 코어 스위치는 데이터 센터에 들어오고 나가는 패킷을 전달하고 집계 계층에 대한 연결을 제공합니다.
클라우드 컴퓨팅의 발전으로 기존의 3계층 네트워크의 단점이 더욱 두드러지게 되었습니다.
- 대역폭 낭비: 각 집계 스위치 그룹은 POD(Point Of Delivery)를 관리하고, 각 POD는 독립적인 VLAN 네트워크를 갖습니다. 스패닝 트리 프로토콜(STP)은 일반적으로 집계 스위치와 액세스 스위치 간에 사용됩니다. STP는 VLAN 네트워크에 하나의 집계 계층 스위치만 사용할 수 있게 하고, 다른 집계 계층은 차단합니다. 이로 인해 집계 계층을 수평으로 확장하는 것도 불가능합니다.
- 대규모 장애 도메인: STP 알고리즘으로 인해 네트워크 토폴로지가 변경되면 재수렴이 필요하여 장애가 발생하기 쉽습니다.
- 긴 지연: 데이터 센터의 발전으로 동서 트래픽이 크게 증가했고, 3계층 아키텍처의 서버 간 통신은 스위치를 레이어별로 통과해야 하므로 지연 시간이 길어졌습니다. 또한 코어 스위치와 집계 스위치의 작업 압력이 계속 증가하고 성능 업그레이드로 인해 비용도 상승합니다.
리프-스파인 아키텍처는 플랫 디자인, 낮은 지연 시간, 높은 대역폭을 포함하여 분명한 장점이 있습니다. 리프-스파인 네트워크는 네트워크를 평평하게 만드는데, 리프 스위치는 기존 액세스 계층 스위치와 동일하고 스파인 스위치는 코어 스위치와 유사합니다.
ECMP(Equal Cost Multi Path)를 통해 리프와 스파인 스위치 간에 여러 경로가 동적으로 선택됩니다. 리프 계층의 액세스 포트와 업링크에 병목 현상이 없는 경우 이 아키텍처는 비차단을 달성합니다. 패브릭의 각 리프가 각 스파인에 연결되기 때문에 스파인이 실패해도 데이터 센터의 처리량 성능은 약간만 저하됩니다.
NVIDIA 스위치 = IB 스위치?
아니요. NVIDIA Spectrum과 Quantum 플랫폼에는 이더넷과 IB 스위치가 모두 장착되어 있습니다.
IB 스위치는 주로 NVIDIA가 2020년에 성공적으로 인수한 제조업체인 멜라녹스에서 운영합니다. 또한 NVIDIA의 Spectrum 플랫폼의 스위치는 주로 이더넷을 기반으로 하며, 제품은 끊임없이 반복됩니다. 4년에 출시된 Spectrum-2022는 400G 스위치 제품입니다.
NVIDIA Spectrum 및 Quantum 플랫폼
Spectrum-X는 생성 AI를 위해 설계되었으며 기존 이더넷 스위치의 한계를 최적화합니다. NVIDIA Spectrum X 플랫폼의 두 가지 핵심 요소는 NVIDIA Spectrum-4 이더넷 스위치와 NVIDIA BlueField-3 DPU입니다.
Spectrum-X의 주요 이점은 다음과 같습니다. AI 및 적응형 라우팅(AR)을 위한 RoCE를 확장하여 NVIDIA Collective Communications Library(NCCL)의 최대 성능을 달성합니다. NVIDIA Spectrum-X는 하이퍼스케일 시스템의 부하 및 규모에서 최대 95%의 유효 대역폭을 달성할 수 있습니다.
- 다중 테넌트 및 다중 작업 환경에서 하나의 작업이 다른 작업에 영향을 미치지 않도록 하려면 성능 격리를 활용합니다.
- 네트워크 구성 요소에 장애가 발생한 경우에도 네트워크 인프라가 계속해서 최고의 성능을 제공할 수 있도록 보장합니다.
- 최적의 NCCL 및 AI 성능을 위해 BlueField-3 DPU와 동기화하세요.
- 다양한 AI 워크로드에서 일관되고 안정적인 성능을 유지하는 것은 SLA를 달성하는 데 중요합니다.
네트워킹 모드에서 IB 또는 이더넷은 중요한 질문입니다. 현재 시장에서 이더넷은 시장 점유율의 대부분을 차지하지만 일부 대규모 컴퓨팅 시나리오에서는 IB가 두드러집니다. ISC 2021 슈퍼컴퓨팅 컨퍼런스에서 IB는 TOP70 시스템의 10%, TOP65 시스템의 100%를 차지했습니다. 고려 범위가 커짐에 따라 IB의 시장 점유율은 감소합니다.
Spectrum과 Quantum 플랫폼은 다양한 애플리케이션 시나리오를 대상으로 합니다. Nvidia의 비전에서 AI 애플리케이션 시나리오는 대략 AI 클라우드와 AI 팩토리로 나눌 수 있습니다. 기존 이더넷 스위치와 Spectrum-X 이더넷은 AI 클라우드에서 사용할 수 있는 반면, NVLink+InfiniBand 솔루션은 AI 팩토리에서 필요합니다.
NVIDIA SuperPOD를 이해하는 방법?
SuperPOD는 더 높은 처리량 성능을 제공하기 위해 여러 컴퓨팅 노드를 연결하는 서버 클러스터입니다.
예를 들어 NVIDIA DGX A100 SuperPOD를 살펴보면 NVIDIA에서 공식적으로 권장하는 구성에서 사용되는 스위치는 다음과 같습니다. QM9700, 40개의 200G 포트를 제공할 수 있습니다. 첫 번째 계층에서 DGX A100 서버는 총 8개의 인터페이스를 가지고 있으며, 이는 각각 8개의 리프 스위치에 연결되어 있으며, 이는 팻 트리(비수렴) 아키텍처를 채택하기 때문입니다. 20개의 서버가 SU를 형성하므로 총 8*SU 서버가 필요합니다. 두 번째 계층 아키텍처에서는 네트워크가 수렴하지 않고 포트 속도가 일관되므로 스파인 스위치가 제공하는 업링크 포트는 리프 스위치의 다운링크 포트보다 크거나 같아야 합니다. 따라서 1개의 SU는 8개의 리프 스위치와 5개의 스파인 스위치에 해당하고, 2개의 SU는 16개의 리프 스위치와 10개의 스파인 스위치에 해당합니다. 또한 SU 수가 6개 이상으로 증가하면 공식 권장 사항은 코어 계층 스위치를 추가하는 것입니다.
NVIDIA DGX A100 SuperPOD 아키텍처 참조
DGX A100 SuperPOD에서 컴퓨팅 네트워크의 서버:스위치 비율은 1:1.17입니다(7개의 SU를 예로 들어 설명). 하지만 DGX A100 SuperPOD에서 이 비율은 1:0.38입니다. 스토리지 및 네트워크 관리에 대한 요구 사항을 고려할 때 DGX A100 SuperPOD와 DGX H100 SuperPOD의 서버:스위치 비율은 각각 1:1.34와 1:0.50입니다.
포트 측면에서 DGX H100에 권장되는 구성에서 각 SU는 31개의 서버로 구성됩니다. 한편, DGX H100은 컴퓨팅을 위한 인터페이스가 4개에 불과하지만, 스위치는 QM9700으로 DGX H64 SuperPOD에서 400개의 100G 포트를 제공합니다.
스위치 성능 측면에서, QM9700 성능은 DGX H100 SuperPOD의 권장 구성에서 크게 개선되었습니다. Infiniband 스위치는 Sharp 기술을 도입합니다. 집계 관리자를 통해 물리적 토폴로지에 스트리밍 집계 트리(SAT)를 구성한 다음 트리의 여러 스위치가 병렬 작업을 수행하면 대기 시간이 크게 줄어들고 네트워크 성능이 향상될 수 있습니다. QM8700/8790+CX6은 최대 2개의 SAT만 지원하지만 QM9700/9790+CX7은 최대 64개를 지원합니다. 스태킹 포트 수가 늘어나므로 사용되는 스위치 수가 줄어듭니다.
스위치 가격을 보면 QM9700의 가격은 QM8700/8790의 약 두 배입니다. SHI 공식 웹사이트에 따르면 Quantum-2 QM9700의 단가는 38,000달러이고 Quantum QM8700/8790의 단가는 각각 23,000/17,000달러입니다.
스위치 시장의 현 상황은 어떠한가?
스위치 시장은 단기적으로 붐을 일으키고 있습니다. AI의 발전으로 시장 수요는 더욱 확대되고 하이엔드 반복으로의 추세를 보일 것으로 예상됩니다.
구조적인 관점에서 보면, 스위치 시장은 여전히 블루오션이며, Cisco가 큰 시장점유율을 차지하고 있으며 Arista가 빠르게 성장하고 있습니다.
시장 규모 측면에서: 1년 2023분기에 글로벌 이더넷 스위치 수익은 10.021억 31.5만 달러로 전년 대비 200% 증가했습니다. 400G/41.3G 스위치 수익은 전년 대비 100% 증가했고, 18.0G 스위치 수익은 전년 대비 XNUMX% 증가했습니다.
항구 선적량 기준으로 229년 2023분기에 14.8억200만대가 선적되어 전년 대비 400% 증가했습니다. 100G/224.2G 및 17.0G 항구는 각각 XNUMX% 및 XNUMX% 증가했습니다.
스위치의 경쟁 환경은 서버 시장보다 더 좋습니다. NextPlatform에 따르면 Cisco는 46년 1분기에 시장 점유율 2023%를 차지했으며, 약 4.61억 33.7천만 달러로 전년 대비 1.15% 증가했습니다. Arista는 데이터 센터에서 뛰어난 성과를 거두어 2023년 61.6분기에 XNUMX억 XNUMX천만 달러의 매출을 올렸으며, 전년 대비 XNUMX% 증가했습니다.
수익성 측면에서 Cisco와 Arista는 모두 60%에 가까운 총 마진을 가지고 있습니다. 비교적 유리한 환경은 산업 체인의 제조업체에 좋은 수익성을 창출했습니다. Cisco와 Arista의 총 이익 마진은 약간 하락 추세를 보였지만 전체적으로는 여전히 약 60%의 총 이익 마진을 유지하고 있습니다. 앞으로 스위치 시장은 AI 개발의 혜택을 계속 받을 것으로 예상됩니다.
관련 상품:
- NVIDIA MMA4Z00-NS400 호환 400G OSFP SR4 플랫 탑 PAM4 850nm 30m on OM3/50m on OM4 MTP/MPO-12 다중 모드 FEC 광 트랜시버 모듈 $650.00
- NVIDIA MMA4Z00-NS-FLT 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $850.00
- NVIDIA MMA4Z00-NS 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $750.00
- NVIDIA MMS4X00-NM 호환 800Gb/s 트윈 포트 OSFP 2x400G PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $1100.00
- NVIDIA MMS4X00-NM-FLT 호환 800G 트윈 포트 OSFP 2x400G 플랫 탑 PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $1200.00
- NVIDIA MMS4X00-NS400 호환 400G OSFP DR4 플랫 탑 PAM4 1310nm MTP/MPO-12 500m SMF FEC 광 트랜시버 모듈 $800.00
- Mellanox MMA1T00-HS 호환 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 광 트랜시버 모듈 $200.00
- NVIDIA MFP7E10-N010 호환 10m(33ft) 8 섬유 낮은 삽입 손실 암-암 MPO 트렁크 케이블 극성 B APC-APC LSZH 다중 모드 OM3 50/125 $47.00
- NVIDIA MCP7Y00-N003-FLT 호환 3m(10피트) 800G 트윈 포트 OSFP - 2x400G 플랫 탑 OSFP InfiniBand NDR 브레이크아웃 DAC $275.00
- NVIDIA MCP7Y70-H002 호환 2m(7피트) 400G 트윈 포트 2x200G OSFP - 4x100G QSFP56 패시브 브레이크아웃 직접 연결 구리 케이블 $155.00
- NVIDIA MCA4J80-N003-FTF 호환 3m(10피트) 800G 트윈 포트 2x400G OSFP - 2x400G OSFP InfiniBand NDR 활성 구리 케이블, 한쪽 끝은 평면 상단, 다른 쪽 끝은 핀형 상단 $600.00
- NVIDIA MCP7Y10-N002 호환 가능한 2m(7피트) 800G InfiniBand NDR 트윈 포트 OSFP - 2x400G QSFP112 브레이크아웃 DAC $200.00