RoCE는 통합 이더넷을 통한 RDMA로 알려져 있습니다. 따라서 RoCE를 이해하기 전에 RDMA를 기술로 인식하는 것이 중요합니다.
RDMA란 무엇입니까?
RDMA(Remote Direct Memory Access)는 CPU 점유를 최소화하면서 한 서버에서 다른 서버로 또는 스토리지에서 서버로 데이터를 전송할 수 있습니다. 데이터를 전송하기 위해 기존 애플리케이션은 운영 체제를 거쳐 TCP/IP를 패키징한 다음 기본 캐시인 NIC 캐시를 통과하여 최종적으로 전송되어야 합니다. 이로 인해 두 가지 제한 사항이 발생합니다.
제한 사항 1: TCP/IP 스택 처리에는 수십 마이크로초의 대기 시간이 발생합니다. TCP 프로토콜 스택이 메시지를 수신하고 보낼 때 커널은 여러 컨텍스트 전환을 수행해야 하며 각 전환에는 5~10마이크로초가 소요됩니다. 또한 최소 XNUMX개의 데이터 복사본과 프로토콜 작업은 CPU에 따라 달라집니다. 이는 프로토콜 처리만으로 수십 마이크로초의 고정된 지연이 발생한다는 것을 의미합니다. 프로토콜 스택의 지연은 가장 명백한 병목 현상이 됩니다.
제한 사항 2: TCP 프로토콜 스택을 사용하여 처리하면 서버 CPU에 높은 로드가 발생합니다. 더 긴 고정 지연 문제 외에도 TCP/IP 네트워크에서는 호스트 CPU가 프로토콜의 메모리 복사에 여러 번 참여해야 합니다. 네트워크 크기가 크고 네트워크 대역폭이 높을수록 데이터를 보내고 받을 때 CPU에 스케줄링 부담이 커져 지속적으로 CPU 부하가 높아집니다.
데이터 센터에서 초대형 분산 컴퓨팅 스토리지 리소스 간의 네트워크 상호 연결에 기존 TCP/IP를 사용하면 시스템의 컴퓨팅 리소스를 많이 소비하여 IO 병목 현상이 발생하고 더 높은 수준의 네트워크 요구를 충족하지 못합니다. 처리량 및 낮은 대기 시간.
RDMA는 높은 대역폭, 낮은 대기 시간, 낮은 CPU 소모를 제공하는 네트워크 상호 연결 기술입니다. 이 기술은 기존 TCP/IP 네트워킹과 일반적으로 관련된 많은 장애물을 극복합니다.
원격수행: 네트워크의 두 노드 간에 데이터가 전송되는 것을 의미합니다.
직접: 커널 개입이 필요 없습니다. 모든 전송 처리가 NIC(네트워크 인터페이스 카드) 하드웨어로 오프로드됩니다.
메모리: 데이터는 추가 복사 및 캐싱 필요 없이 두 노드에 있는 애플리케이션의 가상 메모리 간에 직접 전송됩니다.
접속하다: 액세스 작업에는 보내기/받기, 읽기/쓰기 등이 포함됩니다.
TCP/IP와 비교하면, RDMA 컴퓨팅 리소스 사용량을 줄이고 데이터 전송 속도를 높입니다.
RDMA의 커널 바이패스 메커니즘을 사용하면 애플리케이션과 NIC 간에 직접 데이터 읽기/쓰기가 가능해 서버 내 데이터 전송 대기 시간이 거의 1마이크로초로 줄어듭니다. 또한 RDMA의 제로 복사 메커니즘을 사용하면 수신측에서 발신자의 메모리에서 데이터를 직접 읽을 수 있으므로 CPU의 부하가 크게 줄어들고 CPU 활용도가 향상됩니다.
RDMA를 사용하면 다음과 같은 이점이 있습니다.
- 제로 복사: RDMA 애플리케이션은 커널 네트워크 스택을 우회하고 데이터를 직접 전송할 수 있으므로 애플리케이션의 사용자 공간 메모리에서 커널 네트워크 스택 메모리 공간으로 데이터를 복사할 필요가 없습니다.
- 커널 우회: RDMA 애플리케이션은 사용자 모드에서 직접 데이터 전송을 시작할 수 있으므로 커널 모드와 사용자 모드 간 컨텍스트 전환이 필요하지 않습니다.
- CPU 오프로드: RDMA는 원격 호스트의 CPU 리소스를 소모하지 않고도 원격 호스트의 메모리에 직접 액세스할 수 있습니다. 그러면 원격 호스트의 CPU는 자신의 특권에 집중하고, 캐시 교란을 피하고, 대규모 메모리 액세스 데이터 오버스필을 방지할 수 있습니다.
RoCE란 무엇인가요?
2010년부터 IBTA가 RoCE(RDMA over Converged Ethernet)를 실행하기 위한 첫 번째 사양을 발표하면서 RDMA는 점점 더 많은 주목을 받았습니다. 그러나 초기 사양에서는 RoCE 캡슐화된 프레임에 라우팅 기능이 부족했기 때문에 RoCE 배포를 단일 레이어 2 도메인으로 제한했습니다. 2014년에 IBTA는 레이어 2 네트워크 전반의 라우팅을 지원하도록 초기 RoCE 사양을 업데이트하여 대규모 데이터 센터 네트워크 및 엔터프라이즈 데이터 센터에 더 적합하게 만드는 RoCEv3를 출시했습니다.
RDMA 프로토콜에는 IB(Infiniband), iWARP(Internet Wide Area RDMA Protocol) 및 RoCE(RDMA over Converged Ethernet)가 포함됩니다.
- 인피니밴드: RDMA를 염두에 두고 설계되었으며 물리적 링크 계층, 네트워크 계층 및 전송 계층을 재설계하여 하드웨어 수준에서 안정적인 전송을 보장하고 더 높은 대역폭과 더 낮은 대기 시간을 제공합니다. 하지만 비용이 많이 들고 IB 네트워크 카드와 스위치가 필요합니다.
- 아이워프: 안정적인 전송을 위해 TCP를 사용하는 TCP 기반의 RDMA 네트워크입니다. RoCE와 비교하여 대규모 네트워킹의 경우 iWARP의 많은 수의 TCP 연결은 많은 메모리 리소스를 소비하며 더 높은 시스템 사양을 요구합니다. 일반 이더넷 스위치를 사용할 수 있지만 iWARP를 지원하는 네트워크 카드가 필요합니다.
- 로체: RDMA는 이더넷을 기반으로 하고 RoCEv1 버전은 네트워크 링크 계층을 기반으로 하며 네트워크 세그먼트를 교차할 수 없으며 기본적으로 응용 프로그램이 없습니다. RoCEv2는 UDP를 기반으로 하며 네트워크 세그먼트를 교차할 수 있고 확장성이 좋으며 우수한 처리량과 대기 시간 성능을 달성할 수 있으므로 대규모로 채택되는 솔루션입니다. RoCE는 iWARP보다 적은 리소스를 소비하고 iWARP보다 더 많은 기능을 지원합니다. 일반 이더넷 스위치를 사용할 수 있지만 RoCE를 지원하는 네트워크 카드가 필요합니다.
RoCE가 주류 RDMA 프로토콜인 이유는 무엇입니까?
먼저 iWARP에 대해 이야기해 보겠습니다. iWARP 프로토콜 스택은 다른 두 프로토콜보다 더 복잡하며 TCP의 제한으로 인해 안정적인 전송만 지원할 수 있습니다. 따라서 iWARP의 개발은 RoCE나 Infiniband만큼 좋지 않습니다.
Infiniband 프로토콜 자체는 링크 계층에서 전송 계층까지 기존 이더넷 장치와 호환되지 않는 새로운 계층적 아키텍처 세트를 정의합니다. 예를 들어, 데이터 센터가 이더넷에서 이더넷으로 전환하려는 경우 인피니 밴드 기술의 병목 현상으로 인해 네트워크 카드, 케이블, 스위치, 라우터 등을 포함한 전체 Infiniband 장치 세트를 구입해야 하는데 이는 비용이 너무 많이 듭니다.
RoCE 프로토콜의 장점은 여기서 매우 분명합니다. 사용자는 이더넷에서 RoCE로 전환하려면 RoCE를 지원하는 네트워크 카드만 구입하면 되며 다른 네트워크 장치도 호환됩니다. 따라서 Infiniband에 비해 RoCE의 주요 장점은 저렴한 비용입니다.
RoCEv1
2010년 1월 IBTA는 Infiniband Architecture Spec의 부록으로 발표된 RoCE를 출시하여 IBoE(InfiniBand over Ethernet)라고도 합니다. 이때 RoCE 표준은 이더넷 링크 계층 위에 TCP/IP 네트워크 계층이 아닌 IB 네트워크 계층을 사용했기 때문에 IP 라우팅 기능을 지원하지 않았다. RoCE V0 프로토콜은 이더넷 계층에서 8915xXNUMX의 typeID를 갖습니다.
RoCE에서는 Infiniband 링크 계층 프로토콜 헤더가 제거되고 주소를 나타내는 데 사용되는 GUID가 이더넷 MAC로 변환됩니다. Infiniband는 무손실 물리적 전송에 의존하고 RoCE도 무손실 이더넷 전송에 의존하므로 이더넷 배포에 비용과 관리 오버헤드가 발생합니다.
이더넷의 무손실 전송은 PFC(우선순위 흐름 제어)와 같은 L2 QoS 지원에 의존해야 합니다. 버퍼 풀이 임계값을 초과하면 수신자는 발신자에게 일시 중지 프레임을 보냅니다. Pause 프레임을 수신한 후 송신자의 MAC 계층은 자동으로 전송 속도를 줄입니다. 이 요구 사항은 끝, 스위치 및 라우터를 포함하여 전체 전송 링크의 모든 노드가 모두 L2 QoS를 지원해야 함을 의미합니다. 그렇지 않으면 링크의 PFC가 양쪽 끝에서 효과적인 역할을 수행할 수 없습니다.
RoCEv2
RoCEv1의 데이터 프레임에는 IP 헤더가 없으므로 L2 서브넷 내에서만 통신할 수 있습니다. 이 문제를 해결하기 위해 IBTA는 2년 RoCEv2014을 확장하여 GRH(Global Routing Header)를 UDP 헤더 + IP 헤더로 대체하는 RoCE V1를 제안했습니다. 확장된 프레임 구조는 다음 그림과 같습니다. RoCE v1 및 RoCE v2의 경우 다음 두 가지 사항에 주목할 가치가 있습니다.
- RoCE v1(Layer 2)은 Ehternet Link Layer(Layer 2)에서 작동하므로 Ethertype은 0x8915이므로 일반 프레임 크기는 1500바이트이고 Jumbo Frame은 9000바이트입니다.
- RoCE v2(계층 3)는 UDP/IPv4 또는 UDP/IPv6(계층 3)에서 작동하며 전송에 UDP 포트 4791을 사용합니다. RoCE v2 패킷은 레이어 3에서 라우팅될 수 있기 때문에 라우팅 가능한 RoCE 또는 간단히 RRoCE라고도 합니다.
RDMA에는 급격한 성능 저하를 방지하기 위해 패킷 무손실 네트워크가 필요하므로 RoCE 기술은 패킷 손실이 전혀 발생하지 않도록 PFC, ECN 및 DCQCN 기술을 사용하여 기존 이더넷 네트워크를 무손실 이더넷 네트워크로 변환해야 합니다.
PFC: 우선순위 기반 흐름 제어. PFC는 다양한 유형의 트래픽에 대해 홉별 우선순위 기반 흐름 제어를 제공합니다.
패킷을 전달할 때 장치는 우선순위 매핑 테이블에서 패킷의 우선순위를 조회하여 예약 및 전달을 위한 대기열에 패킷을 할당합니다. 802.1p 우선순위 패킷의 전송 속도가 수신 속도를 초과하고 수신기의 데이터 버퍼 공간이 부족한 경우 수신기는 PFC 일시 중지 프레임을 보낸 사람에게 보냅니다. 송신자가 PFC 일시 중지 프레임을 수신하면 송신자는 PFC XON 프레임을 수신하거나 에이징 타이머 시간이 초과될 때까지 지정된 802.1p 우선 순위로 패킷 전송을 중지합니다. PFC를 구성할 때 특정 유형의 패킷의 정체는 다른 유형의 패킷의 정상적인 전달에 영향을 미치지 않습니다.
ECN: 명시적 혼잡 알림. ECN은 IP 계층과 전송 계층을 기반으로 트래픽 제어 및 엔드투엔드 혼잡 알림 메커니즘을 정의합니다. 장치가 정체되면 ECN은 패킷의 IP 헤더에 ECN 필드를 표시합니다. 수신자는 전송 속도를 늦추도록 발신자에게 알리기 위해 CNP(혼잡 알림 패킷)를 보냅니다. ECN은 엔드 투 엔드 혼잡 관리를 구현하여 혼잡의 확산과 악화를 줄입니다.
DCQCN(데이터 센터 양자화된 혼잡 알림): 현재 RoCEv2 네트워크에서 가장 널리 사용되는 혼잡 제어 알고리즘입니다. QCN과 DCTCP 알고리즘을 병합하고 WRED 및 ECN을 지원하려면 데이터 센터 스위치가 필요합니다. DCQCN은 더 나은 공정성을 제공하고, 높은 대역폭 활용률을 달성하며, 낮은 큐 버퍼 점유율을 보장하고 큐 버퍼 지터를 줄일 수 있습니다.
현재 많은 제조업체는 자체 무손실 네트워크 솔루션을 보유하고 있습니다.
화웨이
Huawei의 iLossless 지능형 무손실 알고리즘 솔루션은 인공 지능을 활용하여 네트워크 혼잡 스케줄링 및 네트워크 자체 최적화를 달성하는 AI 알고리즘입니다. 자동 ECN을 중심으로 초고속 데이터센터 스위치에 DRL(Deep Reinforcement Learning)을 도입합니다. 화웨이는 iLossless 지능형 무손실 알고리즘을 기반으로 지능형 무손실 시대를 3.0으로 선도하는 슈퍼 통합 데이터 센터 네트워크 솔루션 CloudFabric 1.0을 출시했습니다.
2022년 화웨이의 하이퍼컨버지드 데이터센터 네트워크는 270k 대규모 컴퓨팅 허브 네트워크를 실현할 수 있는 지능형 무손실 웹 계산 통합 기술과 혁신적인 직접 연결 토폴로지 아키텍처를 제안했습니다. 지능형 무손실 25을 기반으로 지연을 1.0% 더 줄일 수 있습니다.
Huawei Intelligent Lossless 2.0은 네트워크 내 컴퓨팅과 토폴로지 인식 컴퓨팅을 기반으로 하여 네트워크와 컴퓨팅 시너지 효과를 달성합니다. 네트워크는 컴퓨팅 정보의 수집 및 동기화에 참여하여 컴퓨팅 정보 동기화 횟수를 줄입니다. 동시에 스케줄링을 통해 컴퓨팅 노드 근처에서 컴퓨팅 작업을 완료하고, 통신 점프를 줄이고, 애플리케이션 대기 시간을 더욱 단축합니다.
H3C
네트워크 트래픽 모델(N-to-3 모델의 기타 트래픽 특성 중에서 인캐스트 값, 최대 대기열 깊이, 크고 작은 흐름의 비율)을 활용하는 H1C의 AI ECN 지능형 무손실 알고리즘은 강화 학습 알고리즘을 활용하여 교통 모델을 갖춘 AI. AI는 네트워크 트래픽 추세를 실시간으로 감지하고 예측할 수 있으며 정확한 대기열 예약을 위해 가장 최적의 ECN 임계값을 자동으로 조정할 수 있습니다. 이를 통해 대기 시간에 민감한 소규모 흐름과 처리량에 민감한 대규모 흐름의 전송 균형을 유지하여 최적의 네트워크 성능을 보장하는 동시에 네트워크 PFC 정체 제어의 트리거를 방지합니다.
H3C의 AD-DC SeerFabric 무손실 네트워크 솔루션은 엣지-클라우드 AI 협업 아키텍처를 기반으로 합니다. 업계의 AI ECN 튜닝 알고리즘을 혁신 및 최적화하고 H3C 데이터 센터 스위치의 로컬 AI Inside 기능을 결합함으로써 이 솔루션은 처리량을 높이고 대기 시간을 줄이는 동시에 패킷 손실을 보장합니다. 정확한 네트워크 서비스 품질과 전달을 보장합니다. 또한 세분화된 지능형 운영 및 유지 관리를 통해 RoCE 네트워크의 서비스 경험을 시각화합니다.
인스 퍼
2022년 XNUMX월, Inspur Networks는 RoCE 기술을 지원하는 데이터 센터 이더넷 스위치를 중심으로 전형적인 무손실 이더넷 솔루션을 출시했습니다. 이 솔루션은 다음과 같은 이점을 제공합니다.
1. 컴퓨팅, 스토리지, 네트워킹 및 AIStation의 원활한 통합. 이는 PFC 및 ECN과 같은 혼잡 관리 기술을 지원하여 엔드투엔드, 무손실, 대기 시간이 짧은 RDMA 베어링 네트워크를 구축할 수 있도록 합니다. 스위치의 탁월한 버퍼 이점은 버스트 트래픽을 원활하게 흡수하여 캐스트 시나리오에서 TCP를 효과적으로 처리할 수 있습니다.
2. 사전 예방적인 오류 발견 및 자동 장애 조치. RoCE-SAN 네트워크는 신속한 오류 감지를 위해 스토리지 작업과 협력할 수 있습니다. 스위치는 오류 상태를 신속하게 감지하고 관련 비즈니스 도메인 내의 알림 메시지를 구독하는 서버에 알릴 수 있으므로 중복 경로로 빠르게 전환하고 비즈니스 영향을 줄일 수 있습니다. PFC 교착 상태 문제가 발생하는 대규모 무손실 이더넷 환경의 경우 이 솔루션은 자동 교착 상태 감지 및 복구를 위한 칩 수준 PFC 교착 상태 방지 메커니즘을 제공합니다.
3. 플러그 앤 플레이 스토리지. RoCE-SAN 네트워크는 장치 서버와 저장 장치의 통합을 자동으로 감지하여 서버에 저장 장치와의 연결을 자동으로 설정하도록 알립니다.
관련 상품:
- Intel® 82599EN SR1 단일 포트 10기가비트 SFP+ PCI Express x8 이더넷 네트워크 인터페이스 카드 PCIe v2.0 $115.00
- 인텔 ® 82599ES SR2 듀얼 포트 10 기가비트 SFP + PCI Express x8 이더넷 네트워크 인터페이스 카드 PCIe v2.0 $169.00
- Intel® X710-BM2 DA2 듀얼 포트 10기가비트 SFP+ PCI Express x8 이더넷 네트워크 인터페이스 카드 PCIe v3.0 $245.00
- Intel® XL710-BM1 DA4 쿼드 포트 10기가비트 SFP+ PCI Express x8 이더넷 네트워크 인터페이스 카드 PCIe v3.0 $550.00
- NVIDIA Mellanox MCX621102AN-ADAT SmartNIC ConnectX®-6 Dx 이더넷 네트워크 인터페이스 카드, 1/10/25GbE 듀얼 포트 SFP28, Gen 4.0 x8, Tall&Short 브래킷 $315.00
- NVIDIA Mellanox MCX631102AN-ADAT SmartNIC ConnectX®-6 Lx 이더넷 네트워크 인터페이스 카드, 1/10/25GbE 듀얼 포트 SFP28, Gen 4.0 x8, Tall&Short 브래킷 $385.00
- 인텔® E810-XXVDA4 25G 이더넷 네트워크 어댑터 PCI 익스프레스 v4.0 x16 쿼드 포트 SFP28 $495.00
- 인텔® E810-XXVDA2 25G 이더넷 네트워크 어댑터 PCI 익스프레스 v4.0 X8 듀얼 포트 SFP28 $260.00
- Intel® XL710-BM1 QDA1 단일 포트 40기가비트 QSFP+ PCI Express x8 이더넷 네트워크 인터페이스 카드 PCIe v3.0 $595.00
- Intel® XL710 QDA2 듀얼 포트 40기가비트 QSFP+ PCI Express x8 이더넷 네트워크 인터페이스 카드 PCIe v3.0 $635.00
- NVIDIA Mellanox MCX653105A-ECAT-SP ConnectX-6 InfiniBand/VPI 어댑터 카드, HDR100/EDR/100G, 단일 포트 QSFP56, PCIe3.0/4.0 x16, 긴 브래킷 $690.00
- NVIDIA Mellanox MCX653106A-ECAT-SP ConnectX-6 InfiniBand/VPI 어댑터 카드, HDR100/EDR/100G, 듀얼 포트 QSFP56, PCIe3.0/4.0 x16, 긴 브래킷 $828.00
- 인텔® E810-CQDA2 100G 이더넷 네트워크 어댑터 PCIe v4.0 x16 듀얼 포트 QSFP28 $725.00
- 인텔® E810-CQDA1 100G 이더넷 네트워크 어댑터 PCIe v4.0 x16 단일 포트 QSFP28 $499.00
- NVIDIA Mellanox MCX653105A-HDAT-SP ConnectX-6 InfiniBand/VPI 어댑터 카드, HDR/200GbE, 단일 포트 QSFP56, PCIe3.0/4.0 x16, 긴 브래킷 $1400.00
- NVIDIA Mellanox MCX653106A-HDAT-SP ConnectX-6 InfiniBand/VPI 어댑터 카드, HDR/200GbE, 듀얼 포트 QSFP56, PCIe3.0/4.0 x16, 긴 브래킷 $1600.00