초고대역폭, 초저지연, 초고신뢰성은 대규모 모델 훈련을 위한 네트워크 요구사항입니다.
수년 동안 TCP/IP 프로토콜은 인터넷 통신의 기둥이었지만 AI 네트워크의 경우 TCP/IP에는 몇 가지 치명적인 단점이 있습니다. TCP/IP 프로토콜은 일반적으로 수십 마이크로초 정도의 대기 시간을 가지며 심각한 CPU 부하를 유발합니다. RDMA는 운영 체제 커널의 개입 없이 네트워크 인터페이스를 통해 메모리 데이터에 직접 액세스할 수 있습니다. 이를 통해 처리량이 높고 대기 시간이 짧은 네트워크 통신이 가능하며 특히 대규모 병렬 컴퓨터 클러스터에 사용하기에 적합합니다.
InfiniBand, RoCEv1, RoCEv2 및 iWARP는 RDMA 기술의 네 가지 구현입니다. 그러나 RoCEv1은 더 이상 사용되지 않으며 iWARP는 일반적이지 않습니다. 업계에서 널리 사용되는 네트워크 솔루션은 InfiniBand와 RoCEv2입니다.
HPC/AI 워크로드에 대한 네트워크 요구 사항은 무엇입니까?
오늘날 대부분의 데이터 센터는 XNUMX계층 네트워크 아키텍처를 사용하는 반면, AI 클러스터는 복잡한 대규모 AI 작업을 실행하기 위해 구축된 슈퍼컴퓨터입니다. 컴퓨터 워크로드는 여러 GPU에서 병렬로 실행되므로 높은 활용도가 필요합니다. 따라서 기존 데이터 센터 네트워크에 비해 AI 데이터 센터 네트워크는 추가적인 복잡성에 직면해 있습니다.
- 병렬 컴퓨팅: AI 워크로드는 동일한 애플리케이션/컴퓨팅 작업을 실행하는 여러 시스템의 통합 인프라입니다.
- 규모: HPC/AI 작업의 규모는 수천 개의 컴퓨팅 엔진(예: GPU, CPU, FPGA 등)에 도달할 수 있습니다.
- 작업 유형: 다양한 작업은 크기, 실행 기간, 고려해야 할 데이터 세트 크기 및 수량, 생성할 응답 유형, 애플리케이션을 코딩하는 데 사용되는 다양한 언어 및 애플리케이션이 실행되는 하드웨어 유형에 따라 다릅니다. 끊임없이 변화하는 HPC/AI 워크로드를 실행하도록 구축된 네트워크
- 무손실: 기존 데이터 센터에서는 손실된 메시지가 재전송되는 반면, AI 워크로드에서는 메시지 손실은 전체 계산이 잘못되었거나 중단되었음을 의미합니다. 따라서 AI 데이터센터에는 무손실 네트워크가 필요합니다.
- 대역폭: 애플리케이션이 데이터에 액세스할 수 있으려면 서버 간에 고대역폭 트래픽이 실행되어야 합니다. 최신 배포에서 AI 또는 기타 고성능 컴퓨팅 기능을 위한 각 컴퓨팅 엔진의 인터페이스 속도는 400Gbps에 이릅니다.
이러한 복잡성은 AI 네트워크에 심각한 문제를 야기하므로 AI 데이터 센터 네트워크는 높은 대역폭, 낮은 대기 시간, 지터 없음, 패킷 손실 없음 및 장기적인 안정성을 갖추어야 합니다.
TCP/IP에서 RDMA로
낮은 대기 시간과 높은 I/O 동시성을 요구하는 HPC/AI와 같은 애플리케이션의 경우 기존 TCP/IP 소프트웨어 및 하드웨어 아키텍처는 애플리케이션 요구 사항을 충족할 수 없습니다. 전통적인 TCP/IP 네트워크 통신은 커널을 사용하여 메시지를 전송하는데, 이는 데이터 이동 및 데이터 복사 오버헤드가 높습니다. 예를 들어 일반적인 IP 데이터 전송에서 한 컴퓨터의 응용 프로그램이 다른 컴퓨터의 응용 프로그램으로 데이터를 보내면 수신 측에서는 다음 작업이 발생합니다.
- 커널은 데이터를 수신해야 합니다.
- 커널은 데이터가 속한 애플리케이션을 결정해야 합니다.
- 커널이 애플리케이션을 깨웁니다.
- 커널은 애플리케이션이 커널에서 시스템 호출을 수행할 때까지 기다립니다.
- 애플리케이션은 커널 메모리 공간의 데이터를 애플리케이션이 제공하는 버퍼에 복사합니다.
이 프로세스는 호스트 어댑터가 DMA(직접 메모리 액세스)를 사용하는 경우 대부분의 네트워크 트래픽이 시스템의 기본 메모리에 복사된다는 것을 의미합니다. 또한 컴퓨터는 커널과 애플리케이션 사이를 전환하기 위해 몇 가지 컨텍스트 전환을 수행합니다. 이러한 컨텍스트 스위치는 CPU 로드와 트래픽을 증가시키는 동시에 다른 작업 속도를 저하시킬 수 있습니다.
TCP/IP 전송
기존 IP 통신과 달리 RDMA 통신은 통신 프로세스에서 커널 개입을 우회하여 호스트가 다른 호스트의 메모리에 직접 액세스할 수 있도록 하여 CPU 오버헤드를 줄입니다. RDMA 프로토콜을 사용하면 호스트 어댑터는 패킷이 네트워크에 들어간 후 어떤 응용 프로그램이 이를 수신해야 하는지, 해당 응용 프로그램의 메모리 공간에 저장할 위치를 결정할 수 있습니다. 호스트 어댑터는 처리를 위해 패킷을 커널로 보내지 않고 이를 사용자 애플리케이션의 메모리에 복사하는 대신 패킷 콘텐츠를 애플리케이션 버퍼에 직접 넣습니다.
RDMA 전송
RDMA 전송은 관련된 CPU 주기 수를 줄여 처리량과 성능을 향상시키는 데 도움이 됩니다. 즉, RDMA의 본질은 대규모 분산 컴퓨팅 및 스토리지 시나리오의 경우 네트워크 카드가 CPU를 우회하고 원격 서버의 메모리에 직접 액세스할 수 있도록 하여 서버 간의 상호 작용을 가속화하고 대기 시간을 줄이고 고가치 컴퓨팅 및 로직 제어를 위한 귀중한 CPU 리소스입니다.
기존 TCP/IP 네트워크와 비교하여 InfiniBand 및 RoCEv2는 커널 프로토콜 스택을 우회하므로 대기 시간 성능이 몇 배나 향상될 수 있습니다. 동일한 클러스터 내의 통신이 단일 홉에서 달성될 수 있는 경우, 실험 테스트에 따르면 커널 프로토콜 스택을 우회한 후 애플리케이션 계층의 종단 간 대기 시간이 50us(TCP/IP)에서 5us(RoCE)로 줄어들 수 있습니다. ) 또는 2us(InfiniBand)입니다.
InfiniBand 네트워크 소개
InfiniBand 네트워크는 데이터 전송을 위해 이더넷 대신 InfiniBand 어댑터나 스위치를 사용합니다. 특정 유형의 이더넷 스위치의 포트 간 대기 시간은 230ns인 반면, 포트 수가 동일한 InfiniBand 스위치의 대기 시간은 100ns입니다.
InfiniBand 네트워크의 주요 구성 요소에는 SM(서브넷 관리자), IB 네트워크 카드, IB 스위치 및 IB 케이블이 포함됩니다. InfiniBand 스위치는 라우팅 프로토콜을 실행하지 않으며 전체 네트워크의 포워딩 테이블은 중앙 집중식 서브넷 관리자에 의해 계산 및 배포됩니다. 테이블 전달 외에도 SM은 InfiniBand 서브넷의 파티션, QoS 및 기타 구성을 관리하는 역할도 담당합니다. InfiniBand 네트워크에는 스위치를 상호 연결하고 스위치를 네트워크 카드에 연결하기 위한 전용 케이블과 광 모듈이 필요합니다.
로컬 무손실 네트워크
InfiniBand 네트워크는 신용 토큰 메커니즘을 사용하여 버퍼 오버플로 및 패킷 손실을 근본적으로 방지합니다. 발신자는 수신자가 해당 패킷 수를 수락할 만큼 충분한 크레딧을 가지고 있는지 확인한 후에만 패킷 전송을 시작합니다.
InfiniBand 네트워크의 각 링크에는 미리 결정된 버퍼가 있습니다. 송신자는 수신자가 사용할 수 있는 미리 정해진 버퍼 크기를 초과하는 데이터를 전송하지 않습니다. 수신자가 전달을 완료하면 버퍼를 해제하고 현재 사용 가능한 사전 결정된 버퍼 크기를 발신자에게 지속적으로 반환합니다. 이 링크 수준 흐름 제어 메커니즘은 발신자가 너무 많은 데이터를 보내지 않도록 보장하여 네트워크 버퍼 오버플로 및 패킷 손실을 방지합니다.
네트워크 카드 확장 기능
InfiniBand의 적응형 라우팅은 패킷별 동적 라우팅을 기반으로 하여 대규모 배포에서 최적의 네트워크 활용도를 보장합니다. Baidu 인공지능 클라우드, Microsoft Azure 등 InfiniBand 네트워크를 사용하는 대규모 GPU 클러스터의 예가 많이 있습니다.
InfiniBand 네트워크 카드는 속도 측면에서 빠르게 발전하고 있습니다. 200Gbps HDR은 이미 상업적으로 널리 배포되었으며, 400Gbps NDR 네트워크 카드도 상업적으로 배포되기 시작했습니다. 현재 시장에는 NVIDIA, Intel, Cisco 및 HPE와 같은 주요 InfiniBand 네트워크 솔루션 및 지원 장비 제공업체가 있습니다. 그 중 엔비디아(NVIDIA)가 70%를 넘어 가장 높은 시장점유율을 차지하고 있다. 다음 그림은 일반적으로 사용되는 InfiniBand 네트워크 카드.
RoCEv2 네트워크 소개
RoCE는 이더넷을 통해 RDMA 기능을 구현하여 TCP/IP를 우회하고 하드웨어 오프로드를 사용하여 CPU 사용률을 줄일 수 있습니다. RoCE에는 RoCEv1과 RoCEv2의 두 가지 주요 버전이 있습니다. RoCEv1은 이더넷 링크 계층을 통해 구현된 RDMA 프로토콜입니다. 스위치는 물리 계층에서 안정적인 전송을 보장하기 위해 PFC와 같은 흐름 제어 기술을 지원해야 합니다. RoCEv2는 이더넷 TCP/IP 프로토콜의 UDP 계층을 통해 구현되며 확장성 문제를 해결하기 위해 IP 프로토콜을 도입합니다.
RoCEv2는 레이어 3 이더넷 네트워크를 통한 RDMA 라우팅을 지원합니다. RoCEv2는 InfiniBand 네트워크 계층을 이더넷 링크 계층의 IP 및 UDP 헤더로 대체하므로 IP 기반의 기존 라우터 간에 RoCE를 라우팅할 수 있습니다.
InfiniBand 네트워크는 어느 정도 SM(서브넷 관리자)을 사용하여 중앙에서 관리되는 네트워크인 반면, RoCEv2 네트워크는 RoCEv1을 지원하는 NIC와 스위치로 구성된 순수 분산 네트워크이며 일반적으로 XNUMX계층 아키텍처를 채택합니다.
RoCE 네트워크 카드의 주요 공급업체는 NVIDIA, Intel, Broadcom 등입니다. PCIe 카드는 데이터 센터 서버용 네트워크 카드의 주요 형태입니다. 포트 PHY 속도 RDMA 카드는 일반적으로 50Gbps부터 시작하며 현재 사용 가능한 상용 네트워크 카드는 최대 400Gbps의 단일 포트 속도를 달성할 수 있습니다.
현재 대부분의 데이터 센터 스위치는 RoCE를 지원하는 네트워크 카드와 결합하면 엔드투엔드 RDMA 통신을 달성할 수 있는 RDMA 흐름 제어 기술을 지원합니다. 데이터 센터 스위치의 주요 플레이어로는 Cisco, HPE, Arista 등이 있습니다. 고성능 스위치의 핵심은 그들이 사용하는 포워딩 칩입니다. 현재 시장에 나와 있는 Broadcom의 Tomahawk 시리즈 칩은 상업용 포워딩 칩에 널리 사용됩니다. 그중 Tomahawk3 시리즈 칩은 스위치에 더 일반적으로 사용되며 Tomahawk4 시리즈 칩을 지원하는 스위치가 시장에서 점차 증가하고 있습니다.
InfiniBand 대 RoCE
InfiniBand에 비해 RoCE는 다양성이 뛰어나고 비용이 상대적으로 저렴합니다. 고성능 RDMA 네트워크 구축뿐만 아니라 기존 이더넷에도 사용할 수 있습니다. 그러나 스위치에 헤드룸, PFC(우선순위 기반 흐름 제어), ECN(명시적 혼잡 알림)과 같은 매개변수를 구성하는 것은 복잡할 수 있습니다. 대규모 배포에서는 RoCE 네트워크의 전체 처리량 성능이 InfiniBand 네트워크보다 약간 낮을 수 있습니다.
- 기술적 관점에서 InfiniBand는 다양한 기술을 채택하여 네트워크 포워딩 성능을 향상하고, 오류 복구 시간을 단축하며, 확장성을 향상하고, 운영 복잡성을 줄입니다.
- 비즈니스 성능 측면에서 InfiniBand는 RoCEv2보다 종단 간 지연 시간이 낮으므로 InfiniBand를 기반으로 구축된 네트워크는 애플리케이션 수준의 비즈니스 성능에 유리합니다.
- 대역폭 및 지연 시간 측면에서 혼잡, 라우팅과 같은 요소는 고성능 네트워크 상호 연결에 영향을 미칩니다.
충혈
InfiniBand는 정체를 제어하기 위해 FECN(순방향 명시적 혼잡 알림)과 BECN(역방향 명시적 혼잡 알림)이라는 두 가지 프레임 릴레이 메시지를 사용합니다. 네트워크가 혼잡할 경우 FECN은 수신 장치에 알리고 BECN은 송신 장치에 알립니다. InfiniBand는 FECN과 BECN을 적응형 마킹 속도와 결합하여 정체를 줄입니다. 이는 대략적인 혼잡 제어를 제공합니다.
RoCE의 혼잡 제어는 패킷 삭제 없이 엔드포인트 네트워크 혼잡 알림을 활성화하는 IP 및 TCP의 확장인 ECN(명시적 혼잡 알림)을 사용합니다. ECN은 IP 헤더에 표시를 배치하여 발신자에게 정체가 있음을 알립니다. 비ECN 혼잡 통신의 경우 손실된 패킷을 재전송해야 합니다. ECN은 TCP 연결 정체로 인한 패킷 손실을 줄여 재전송을 방지합니다. 재전송이 줄어들면 대기 시간과 지터가 줄어들어 트랜잭션 및 처리량 성능이 향상됩니다. ECN은 또한 InfiniBand에 비해 뚜렷한 이점이 없는 대략적인 혼잡 제어 기능을 제공합니다.
라우팅
네트워크에 정체가 있는 경우 적응형 라우팅은 대체 경로를 통해 장치를 전송하여 정체를 완화하고 전송 속도를 높입니다. RoCE v2는 IP 위에서 실행됩니다. IP는 고급 라우팅 알고리즘을 통해 수십 년 동안 라우팅이 가능했으며 이제는 AI 머신러닝으로 혼잡한 경로를 예측하고 더 빠른 경로를 통해 자동으로 패킷을 보낼 수 있습니다. 라우팅 측면에서 이더넷과 RoCE v2는 상당한 이점을 가지고 있습니다.
그러나 InfiniBand와 RoCE는 꼬리 지연 시간을 처리하는 데 많은 노력을 기울이지 않습니다. 테일 대기 시간은 HPC 메시지 애플리케이션의 동기화에 매우 중요합니다.
UEC는 새로운 전송 프로토콜을 정의할 계획입니다.
이외에도 인피니밴드 RoCE, 기타 프로토콜이 업계에서 제안되었습니다.
19월 XNUMX일, Ultra Ethernet Consortium(UEC)이 공식적으로 설립되었습니다. UEC의 목표는 기존 이더넷 기능을 넘어서 고성능 컴퓨팅 및 인공 지능에 최적화된 고성능, 분산형, 무손실 전송 계층을 제공하는 것입니다. UEC의 창립 멤버에는 AMD, Arista, Broadcom, Cisco, Eviden, HPE, Intel, Meta, Microsoft가 있으며, 모두 네트워킹, 인공 지능, 클라우드 및 대규모 고성능 컴퓨팅 배포 분야에서 수십 년의 경험을 보유하고 있습니다.
UEC는 수십 년 전에 정의된 RDMA가 까다로운 AI/ML 네트워크 트래픽에서 구식이라고 믿습니다. RDMA는 대규모 트래픽 블록으로 데이터를 전송하므로 링크 불균형과 과부하가 발생할 수 있습니다. 이제 새로운 애플리케이션을 위해 RDMA를 지원하는 최신 전송 프로토콜 구축을 시작할 때입니다.
현재 RDMA(여전히 RDMA 지원)보다 더 나은 이더넷 전송을 제공하는 동시에 이더넷/IP의 장점을 유지하고 AI 및 HPC 애플리케이션에 필요한 성능을 제공하는 것을 목표로 UEC 전송 프로토콜이 개발 중인 것으로 알려졌습니다. UEC 전송은 일부 의미 조정, 혼잡 알림 프로토콜 및 향상된 보안 기능을 갖춘 새로운 형태의 근접 전송 계층입니다. UEC는 무손실 네트워크가 필요하지 않은 보다 유연한 전송을 제공하므로 다대다 인공 지능 워크로드에 다중 경로 및 비순차적 패킷 전송 및 기타 기능이 필요할 수 있습니다.
더 많은 엔터프라이즈 파워
HPC/AI 네트워크가 계속 발전함에 따라 점점 더 많은 기업이 특정 요구 사항을 충족하기 위해 자체 네트워크 프로토콜이나 솔루션을 출시하고 있습니다.
Tencent Cloud는 Starlink 네트워크에서 자체 개발한 Starlink RDMA 네트워크를 사용하여 GPU가 서로 직접 통신할 수 있게 하여 CPU 리소스를 절약하고 컴퓨팅 노드의 전반적인 성능과 효율성을 향상시킵니다. 자체 개발한 엔드 투 엔드 협업 프로토콜 TiTa를 통해 Starlink 네트워크는 90% 로드 0 패킷 손실을 달성할 수 있습니다. TiTa 프로토콜에는 네트워크 상태를 실시간으로 모니터링하고 통신을 최적화할 수 있는 혼잡 제어 알고리즘이 내장되어 있어 데이터 전송이 더 원활해지고 대기 시간이 단축됩니다.
Alibaba Cloud Panjiu PredFabric은 자체 개발한 Solar-RDMA 고속 네트워크 프로토콜을 사용합니다. 이를 통해 프로세서는 로드/저장 명령을 통해 다른 서버의 메모리에 액세스할 수 있습니다. 이는 딥 러닝 모델 내 신경망의 대화형 형태에 매우 적합합니다. . 기존 모드와 비교하여 오류 자가 복구 시간과 꼬리 지연 시간을 90%까지 줄일 수 있습니다.
화웨이의 하이퍼 컨버지드 데이터 센터 네트워크는 트래픽 제어 기술, 혼잡 제어 기술, 지능형 무손실 스토리지 네트워크 기술의 세 가지 핵심 기술과 협력하여 PFC 교착 상태를 사전에 방지하고 혼잡을 완화/해제하는 독창적인 iLossless 지능형 무손실 알고리즘을 사용합니다. 호스트를 빠르게 제어하여 무손실 이더넷 네트워크를 구축하고 기존 이더넷 네트워크의 혼잡 패킷 손실 문제를 해결합니다.
시장 수요 증가는 기술 발전의 근본적인 원동력입니다. IDC 데이터에 따르면 AI 인프라 구축 투자액은 154년 2023억 달러, 300년에는 2026억 달러로 늘어날 전망이다. 2022년 AI 네트워크 시장 규모는 2억 달러에 달하며 이 중 인피니밴드가 매출의 75%를 차지했다. .
InfiniBand와 RoCE를 비교해 보면 둘 다 고유한 장점과 애플리케이션 시나리오가 있음을 알 수 있습니다. InfiniBand는 고성능 컴퓨팅 분야에서 탁월한 성능을 발휘하며 뛰어난 성능, 낮은 대기 시간 및 확장성을 제공합니다. RoCE는 기존 이더넷 인프라에 통합하기가 더 쉽고 비용도 저렴합니다. UEC로 대표되는 새로운 전송 프로토콜은 기술의 지속적인 개발과 혁신을 상징하기도 합니다. 변화하는 요구 사항에 적응해야만 핵심 경쟁력을 유지할 수 있습니다.
관련 상품:
- Mellanox MMA1B00-E100 호환 100G InfiniBand EDR QSFP28 SR4 850nm 100m MTP/MPO MMF DDM 트랜시버 모듈 $40.00
- Mellanox MMA1T00-HS 호환 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 광 트랜시버 모듈 $200.00
- Mellanox MMS1W50-HM 호환 200G InfiniBand HDR QSFP56 FR4 PAM4 CWDM4 2km LC SMF FEC 광 트랜시버 모듈 $650.00
- NVIDIA MMS4X00-NS400 호환 400G OSFP DR4 플랫 탑 PAM4 1310nm MTP/MPO-12 500m SMF FEC 광 트랜시버 모듈 $800.00
- NVIDIA MFP7E20-N050 호환 50m(164ft) 8 섬유 낮은 삽입 손실 암-암 MPO12 ~ 2xMPO12 극성 B APC ~ APC LSZH 다중 모드 OM4 50/125 $145.00
- NVIDIA MFP7E20-N015 호환 15m(49ft) 8 섬유 낮은 삽입 손실 암-암 MPO12 ~ 2xMPO12 극성 B APC ~ APC LSZH 다중 모드 OM3 50/125 $67.00
- NVIDIA MFS1S90-H015E 호환 15m(49ft) 2x200G QSFP56 - 2x200G QSFP56 PAM4 브레이크아웃 활성 광 케이블 $830.00
- NVIDIA MMA4Z00-NS-FLT 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $850.00
- NVIDIA MMS4X00-NM-FLT 호환 800G 트윈 포트 OSFP 2x400G 플랫 탑 PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $1200.00
- NVIDIA MFS1S50-H015V 호환 15m(49ft) 200G InfiniBand HDR QSFP56 - 2x100G QSFP56 PAM4 브레이크아웃 활성 광 케이블 $630.00
- NVIDIA MMA4Z00-NS 호환 800Gb/s 트윈 포트 OSFP 2x400G SR8 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $750.00
- NVIDIA MMS4X00-NM 호환 800Gb/s 트윈 포트 OSFP 2x400G PAM4 1310nm 500m DOM 듀얼 MTP/MPO-12 SMF 광 트랜시버 모듈 $1100.00
- NVIDIA Mellanox MCX653105A-HDAT-SP ConnectX-6 InfiniBand/VPI 어댑터 카드, HDR/200GbE, 단일 포트 QSFP56, PCIe3.0/4.0 x16, 긴 브래킷 $1400.00
- Mellanox MCP7H50-H003R26 호환 3m(10피트) Infiniband HDR 200G QSFP56 ~ 2x100G QSFP56 PAM4 패시브 브레이크아웃 직접 연결 구리 케이블 $75.00
- Mellanox MFS1S50-H003E 호환 3m(10피트) 200G HDR QSFP56 ~ 2x100G QSFP56 PAM4 브레이크아웃 액티브 광 케이블 $605.00
- NVIDIA Mellanox MCX75510AAS-NEAT ConnectX-7 InfiniBand/VPI 어댑터 카드, NDR/400G, 단일 포트 OSFP, PCIe 5.0x 16, 긴 브래킷 $1650.00