AI 네트워크 아키텍처의 진화와 과제
AI 네트워크를 논의할 때 두 가지 핵심 차원을 분석할 수 있습니다. 첫 번째 차원은 AI를 위해 제공된 기본 네트워크 아키텍처입니다. 두 번째 차원은 네트워크 운영 및 유지 관리에 AI 기술을 적용하는 것입니다. 당사는 AI 운영(AIOps) 및 관찰 가능성을 포함하여 내부 시스템을 개선하기 위해 다양한 기능과 솔루션을 통합했습니다. 당사 스위치에는 AI 네트워크의 핵심 기능인 Smart System Upgrade(SSU)와 같은 여러 센서와 보안 기능이 장착되어 있습니다. SSU 기능은 중요한 네트워크 서비스를 운영 상태로 유지하면서 원활한 보안 패치 업데이트 및 시스템 업그레이드를 허용하며 예측 분석을 지원합니다.
캠퍼스 스위치, WAN 라우터 또는 400개 포트가 있는 대형 576G 데이터 센터 스위치 등 모든 Arista 제품은 동일한 확장 가능 운영 체제(EOS)에서 작동합니다. 또한 모든 제품은 통합 소프트웨어 플랫폼 CloudVision을 통해 관리되어 다양한 환경에서 일관된 성능을 보장하는 엔드투엔드 고품질 솔루션을 고객에게 제공합니다. 이러한 균일성은 고객에게 매우 높이 평가되었습니다.
전통적으로 네트워크는 고립된 사일로에서 운영되었습니다. 예를 들어, 데이터 센터에서 프런트엔드 네트워크와 백엔드 네트워크를 운영했으며, 백엔드 네트워크는 주로 InfiniBand가 지배하는 HPC로 구성되었습니다. AI 기술의 발전으로 기존 데이터 센터에서 AI 중심 센터로의 전환이 목격되고 있습니다. AI 센터에서 백엔드 네트워크는 GPU를 연결하는 반면 프런트엔드 네트워크는 기존 데이터 센터 네트워크, 스토리지 시스템 및 WAN을 연결하여 기본적으로 통합 AI 센터를 구축하는 데 필요한 모든 네트워크 구성 요소를 포함합니다.
650 그룹의 슬라이드는 데이터 센터 포트 속도의 역사적 진화와 미래 예측을 보여줍니다. 묘사된 대로, 고속 포트는 상당한 성장 궤도에 있습니다. 그래프는 800G와 1.6T 속도를 통합하는데, 이는 타당합니다. 800G는 8x100G SERDES에 의존하는 반면 1.6T는 16x100G 또는 8x200G SERDES를 사용합니다. 이러한 성장은 AI 클러스터, 특히 훈련 클러스터의 확장을 반영하여 약 30%~40%의 AI 네트워크 수요에 의해 주도됩니다. 앞으로 추론 작업도 이러한 성장을 주도할 것입니다. 따라서 I/O 기능은 GPU 성능 개선과 보조를 맞춰야 합니다. 그래프의 오른쪽에서 51.2T ASIC는 역사상 가장 빠른 채택률을 보이며 25.6T에서 51.2T로 빠르게 전환되고 있으며 100T 칩은 훨씬 더 빠른 속도로 뒤따를 가능성이 있습니다. 전통적으로 속도 업그레이드에는 수년이 걸렸지만, AI 수요에 힘입어 이제는 GPU 및 기타 가속기의 대역폭 요구 사항을 충족하기 위해 1.5~2년마다 기술 전환이 이루어지고 있습니다.
기존 데이터 센터에서 AI 센터로: Arista의 혁신 여정
건축적 변형: 기존 데이터 센터 네트워크는 일반적으로 계층형 아키텍처를 사용하는데, 프런트엔드 네트워크는 사용자 장치와 외부 네트워크를 연결하고 백엔드 네트워크는 주로 InfiniBand 기술을 활용하여 고성능 컴퓨팅(HPC)의 요구 사항을 충족합니다. 그러나 AI 기술의 급속한 발전으로 데이터 센터 설계 철학은 AI 중심 모델로 전환되고 있습니다.
구성 요소 재구성: AI 데이터 센터 아키텍처에서 백엔드 네트워크는 GPU를 연결하는 반면, 프런트엔드 네트워크는 기존 데이터 센터 네트워크, 스토리지 시스템 및 WAN을 계속 연결합니다. 이는 AI 워크로드를 중심으로 하는 포괄적인 네트워크 환경을 만들어냅니다.
모듈형 시스템과 관련하여 Arista의 주력 AI 백본 제품은 최대 576개의 800G 포트를 지원하는 가장 큰 섀시 디자인을 특징으로 합니다. 이 구성을 통해 소규모 네트워크가 대형 섀시에 연결하여 1100개 이상의 400G 포트 규모를 달성하여 단일 섀시에서 거의 XNUMX페타바이트의 대역폭을 제공합니다. 수십만 또는 수십만 개의 GPU가 있는 대규모 클러스터의 경우 최적의 설계는 백엔드에 듀얼 레이어 리프-스파인 네트워크 아키텍처를 사용합니다. 부하 분산이 주요 관심사이므로 이러한 듀얼 레이어 구조를 유지하는 것이 AI 시나리오에서 매우 중요합니다. 적절한 트래픽 분산을 보장하면 혼잡을 방지하고 개별 GPU가 전체 작업 부하를 늦추는 것을 방지하며 중단을 줄이고 고전력 네트워크의 전력 소비를 낮추는 데 도움이 됩니다.
네트워크에서 AI 워크로드의 과제
대역폭 수요: AI 모델의 규모와 계산 요구 사항이 기하급수적으로 증가하고 있으며, 이로 인해 네트워크 대역폭 수요가 급격히 증가하고 있습니다.
버스트 트래픽: AI 훈련 서버에서 오는 각 데이터 스트림은 일반적으로 4~8개의 데이터 스트림만 포함하는 라인 속도로 버스트 트래픽을 생성하지만, 이 패턴은 심각한 네트워크 혼잡을 일으킬 수 있습니다.
지연 시간 병목 현상: 분산 컴퓨팅에서는 가장 느린 트래픽 경로가 병목 현상이 되며, 네트워크 지연 시간은 잠재적으로 전체 성능에 상당한 영향을 미칠 수 있습니다.
트래픽 모니터링: AI 트래픽은 속도가 빠르고 집중적인 특성을 가지고 있어 모니터링하고 문제를 해결하는 것이 매우 어렵기 때문에 기존 모니터링 도구로는 부족합니다.
Arista의 AI 네트워크 솔루션
Arista는 고성능 스위치 플랫폼, 혁신적인 네트워크 아키텍처, 고급 소프트웨어 기능, 효율적인 광학 기술을 포함한 포괄적인 AI 네트워크 솔루션 제품군을 제공하여 AI 작업 부하로 인해 발생하는 다양한 과제를 해결합니다.
고성능 이더넷 스위치:
제품 라인: Arista는 고정 구성 및 모듈형 시스템을 포함한 다양한 800G 이더넷 스위치를 제공합니다.
Etherlink AI 시리즈:
고정 구성 시스템: Broadcom 512T 칩을 탑재하고 64개의 800G 포트(128개의 400G 포트와 동일)를 장착하여 중소 규모 AI 워크로드에 적합합니다.
모듈식 시스템: 섀시당 최대 576개의 800G 포트를 지원하는 대표적인 AI 백본 제품으로 초대형 데이터 센터에 이상적입니다.
7700 시리즈: 분산형 Etherlink 시스템은 단일 홉 디자인을 채택하여 최대 32,000개 GPU까지 확장이 가능하여 대규모 컴퓨팅 요구 사항을 충족합니다.
운영 체제: 모든 스위치는 Arista EOS(확장 가능 운영 체제)에서 실행되고 CloudVision 플랫폼을 통해 균일하게 관리되어 관리 효율성이 향상됩니다.
51.2나노미터 공정으로 제작되고 5개의 64G 포트가 장착된 Arista의 800Tbps 섀시는 현재 사용 가능한 가장 에너지 효율적인 선택입니다. AI 클러스터에서 부하 분산과 에너지 소비는 두 가지 주요 과제이며, 에너지 효율성은 고객에게 주요 관심사입니다. 업계는 광 모듈과 네트워크 에너지 효율성을 모두 향상시키기 위해 선형 플러그형 광학(LPO)으로 이동하고 있습니다. 네트워크 측의 에너지 절감은 더 많은 GPU 또는 xPU에 재할당할 수 있습니다.
이는 스마트한 하드웨어 혁신을 나타냅니다. 주요 고객의 피드백에 따르면, 모든 케이블을 제거하고, 섀시를 분해하고, 섀시 내부에서 구성 요소가 고장 났을 때 수리를 수행하는 것은 번거로운 작업입니다. 일반적으로 MTBF(평균 고장 간격)가 가장 짧은 구성 요소는 메모리(RAM), 솔리드 스테이트 드라이브(SSD) 또는 중앙 처리 장치(CPU)입니다. 이 문제를 해결하기 위해, 당사의 시스템 설계는 오른쪽에 있는 두 개의 팬을 꺼낸 후 전체 CPU 모듈을 제거할 수 있도록 합니다.
이 설계의 또 다른 장점은 SSD의 독점 데이터에 관한 일부 고객의 보안 요구 사항을 충족할 수 있다는 것입니다. CPU 모듈을 독립적으로 제거할 수 있으므로 고객은 유지 관리 중에 이 데이터를 안전하게 처리할 수 있습니다. 이 설계는 상당한 편의성을 제공하며 주요 하드웨어 혁신을 나타냅니다.
최신 세대 제품인 7700R4는 800G 라인 카드를 장착했습니다. 가장 큰 구성에서 섀시는 최대 1,152개의 400G 포트를 지원하여 거의 반 페타바이트의 데이터 처리량을 제공할 수 있습니다. 이 섀시는 완전한 셀 기반 가상 출력 대기열(VOQ) 아키텍처를 채택하여 완벽한 로드 밸런싱을 보장합니다. 이 설계는 단일 섀시로 충분한 소규모 클러스터를 구축하는 고객에게 특히 적합합니다. 또한 대규모 클러스터를 구축하는 고객에게 이상적인 AI 백본 네트워크 장치 역할을 합니다.
혁신적인 부하 분산 기술
- 과제: 기존의 동일 비용 다중 경로(ECMP) 알고리즘은 AI 트래픽을 처리하는 데 비효율적이어서 Arista는 다양한 대상 로드 밸런싱 솔루션을 개발하게 되었습니다.
- 혼잡 인식 레이아웃: 실시간 네트워크 부하에 따라 트래픽을 다양한 업링크에 지능적으로 분산하여 혼잡 위험을 줄입니다.
- RDMA 기반 부하 분산: 소프트웨어 알고리즘을 사용하여 RDMA 트래픽 특성에 따라 정확한 부하 분산을 달성합니다.
- 분산형 Etherlink 스위치(DES): 단일 홉 상호 연결 방식을 채택하여 지연 시간을 줄이고 하드웨어 수준의 패킷 전달을 통해 부하 분산 문제를 해결합니다.
- 아키텍처 설계: 실제로는 단 하나의 홉만 필요한 듀얼 레이어 네트워크 아키텍처를 특징으로 하며, 메인 칩은 리프 스위치에 위치하고 스파인은 고속 스위칭 장치 역할을 합니다.
- 패킷 스프레이 전송 프로토콜: 순서가 잘못된 패킷을 처리하고 데이터 전송 안정성을 효과적으로 향상하도록 설계된 미래의 RDMA 프로토콜 대안입니다.
가상 출력 큐잉(VOQ)과 RDMA 지원 로드 밸런싱의 차이점: VOQ는 섀시 내부의 아키텍처를 말하며, 가상 출력 큐를 사용하여 입력 및 출력 포트 간에 패킷을 할당하는데, 이는 완전히 예약된 프로세스입니다. 반면, RDMA 지원 로드 밸런싱은 RDMA 트래픽 특성에 초점을 맞춘 동적 로드 밸런싱을 포함하며, 해당 트래픽을 기반으로 로드 밸런싱 또는 해싱을 허용합니다.
다이어그램은 기존 프런트엔드 네트워크와 전용 백엔드 AI 네트워크를 모두 포함하는 네트워크 아키텍처에 대한 포괄적인 개요를 제공합니다. 클러스터 크기에 따라 구성에는 더 작은 고정 섀시, 랙 또는 둘의 하이브리드가 포함될 수 있습니다. 매우 대규모 클러스터의 경우 3계층 아키텍처를 고려할 수도 있습니다.
AI 백엔드와 프런트엔드 모두 전용 스토리지 시스템이 필요합니다. 또한 WAN 연결이 필요합니다. 이 개요는 대규모 AI 네트워크의 전체 아키텍처를 보여줍니다.
향상된 시각화 기능
- 네트워크 모니터링 도구: 기존 네트워크 모니터링 방법은 AI 트래픽의 마이크로초 단위 변동을 포착하는 데 어려움을 겪습니다. Arista는 다양한 혁신적인 모니터링 도구를 제공합니다.
- AI 분석기: 100마이크로초 간격으로 트래픽 통계를 수집하여 네트워크 동작에 대한 세부적인 통찰력을 제공하고, 이를 통해 혼잡 및 부하 분산 문제를 신속하게 식별할 수 있습니다.
- AI 에이전트: EOS를 NIC 서버로 확장하여 ToR 및 NIC 연결에 대한 중앙 관리 및 모니터링을 실현합니다.
- 자동 검색: AI Agent는 다양한 NIC 플러그인 확장을 지원하여 스위치와 NIC 간의 구성을 자동으로 검색하고 동기화할 수 있습니다.
- 데이터 수집: NIC 카운터 데이터를 수집하여 보다 포괄적인 네트워크 보기와 향상된 분석 기능을 제공합니다.
종합적 혼잡 제어 메커니즘
- 혼잡 관리 기술: Arista는 다음을 포함하여 네트워크 혼잡을 효과적으로 관리하기 위해 여러 기술을 사용합니다.
- 우선 순위 흐름 제어(PFC): 우선 순위 흐름 제어를 통해 마지막 홉 트래픽 집계로 인해 발생하는 패킷 손실을 방지합니다.
- 명시적 혼잡 알림(ECN): PCI 버스 혼잡 중에 데이터 전송 속도를 줄여 네트워크 충돌을 방지합니다.
- 네트워크 내 원격 측정: 네트워크 혼잡 대기열 깊이에 대한 세부적인 정보를 제공하여 실시간 모니터링과 최적화를 용이하게 합니다.
높은 신뢰성 보장:
- 고가용성 기술: Arista는 AI 네트워크의 고가용성을 보장하기 위해 다양한 기능을 제공합니다.
- 비중단 업그레이드(SSU): 가동 중단 없이 EOS 버전 업그레이드를 지원합니다.
- 데이터 플레인 최적화: 칩 성능을 최적화하여 안정적인 네트워크 작동을 보장합니다.
- 포괄적인 L1 링크 모니터링: 400,000개의 광 모듈 상태를 실시간으로 모니터링하고, 오류를 신속하게 식별하여 해결하여 네트워크 안정성을 보장합니다.
Arista의 Crown Jewel: EOS(Extensible Operating System) 및 그 기능:
AI 환경에서 로드 밸런싱은 필수적입니다. 우리는 동적 로드 밸런싱(DLB), 혼잡 로드 밸런싱(CLB), RDMA 헤더 기반 해싱, 데이터 센터 양자화 혼잡 알림(DCQCN), 명시적 혼잡 알림(ECN), 우선 순위 흐름 제어(PFC) 혼잡 제어 방법을 포함한 다양한 기능을 제공합니다. 또한 PFC 워치독 및 멀티 테넌트 옵션과 같은 향상된 기능을 제공합니다.
GPU 또는 xPU 클러스터를 구축하고 서비스로 제공할 계획이라면 세분화 및 멀티 테넌시 기능이 필요합니다. 여기서 가상 확장 가능 LAN(VXLAN) 및 이더넷 가상 사설망(EVPN)이 작용합니다. 배포되면 모니터링 및 시각화가 필수적이어서 원격 측정 데이터에 액세스하고 혼잡 지점과 오류 링크를 식별하여 네트워크의 안정성과 견고성을 보장합니다.
광학 기술과 미래 동향
선형 플러그 가능 광학 장치(LPO):
- 설계 특징: 800G LPO는 선형 설계를 사용하여 비용과 전력 소비를 크게 줄였습니다.
- 향후 전망: 1.6T LPO는 전력 소비를 더욱 줄일 수 있으며, 2025년까지 대량 생산이 이루어질 것으로 예상되며, 이는 AI 클러스터의 전력 소비를 줄이는 핵심 기술이 될 것입니다.
네트워크에서도 마찬가지로 중요합니다. 400G 광 기술을 검토할 때 전기 신호와 광 신호 간의 불일치가 관찰됩니다. 전기 신호는 8X 50G인 반면 광 신호는 4X 100G이므로 50G 전기 신호를 100G 광 신호로 변환하기 위한 기어박스가 필요합니다. 신호 변환 외에도 기어박스에는 신호 증폭 기능도 있습니다. 기어박스의 역할은 무엇입니까? 광 신호에 대한 전력 이득을 제공하지만 비용도 추가됩니다. 800G 속도에서 상황은 선형적이며 이는 유리한 특성입니다. 전기 신호는 8X 100G PAM-4이고 광 신호도 8X 100G PAM-4이므로 광 신호 속도가 완벽하게 일치하여 가장 낮은 비용과 더 간단한 광 설계로 이어집니다.
랙 수준 통합:
- 통합 솔루션: 구리 케이블 광 상호 연결을 사용하여 더 많은 GPU와 네트워크 기술을 동일한 랙에 통합하여 전반적인 성능을 개선합니다.
- 사례 분석: Nvidia의 NVL72 랙은 최대 72킬로와트의 전력 소비로 120개의 GPU를 통합합니다. 랙 수준 통합은 비용 및 전력 이점을 제공하지만 열 관리 측면에서도 어려움에 직면합니다.
AI 클러스터에서 가장 일반적으로 사용되는 광 연결 방식에 대해 궁금하다면, 대부분의 AI 클러스터는 랙 끝 디자인을 채택합니다. 여기서는 800G VSR4가 사용되어 랙 끝에서 모든 GPU를 연결하기에 충분한 50m의 전송 거리를 제공합니다. 리프와 스파인 사이에는 XDR4 또는 FR4를 사용할 수 있습니다. 하나는 최대 500m, 다른 하나는 최대 2km의 전송을 지원합니다.
UEC(울트라 이더넷 컨소시엄):
- 조직적 배경: Arista는 UEC의 창립 멤버 중 하나이며, 이더넷 기술 개발을 적극적으로 촉진하고 있습니다.
- 기술적 목표: UEC는 전송 프로토콜, 혼잡 제어, 패킷 스프레이 기술을 포함하여 AI 및 HPC 워크로드로 인해 발생하는 네트워크 과제를 해결하는 것을 목표로 합니다.
- 사양 발표: UEC는 2024년 후반에 다중 계층 네트워크 사양을 발표하여 업계 표준화를 촉진할 것으로 예상됩니다.
AI 네트워크 확장:
- 아키텍처 지원: Arista는 다음을 포함하여 다양한 규모의 AI 클러스터를 지원하기 위해 다양한 네트워크 아키텍처를 제공합니다.
- 듀얼 레이어 리프-스파인 아키텍처: 중소 규모 클러스터에 적합하며 효율적인 대역폭 활용을 제공합니다.
- 3계층 네트워크 아키텍처: 초대규모 클러스터에 적합하며 네트워크 확장성을 향상시킵니다.
- 다중 평면 네트워크 아키텍처: 여러 개의 독립 평면을 통해 네트워크 규모를 확장하여 더 높은 동시성을 지원합니다.
- 분산 스케줄링 아키텍처: 단일 홉 논리적 연결을 구현하여 최대 32,000개 GPU에 대한 확장 요구 사항을 지원합니다.
- 시장 수요: 초대형 AI 클러스터를 구축하는 데는 비용이 많이 들지만, 고성능 컴퓨팅과 빅데이터 처리에 대한 시장 수요가 증가하면서 관련 기술의 혁신과 개발이 지속적으로 촉진되고 있습니다.
관련 상품:
- Arista Networks QDD-400G-SR8 호환 400G QSFP-DD SR8 PAM4 850nm 100m MTP/MPO OM3 FEC 광 트랜시버 모듈 $180.00
- Arista Networks QDD-400G-DR4 호환 400G QSFP-DD DR4 PAM4 1310nm 500m MTP/MPO SMF FEC 광 트랜시버 모듈 $450.00
- Arista QDD-400G-VSR4 호환 QSFP-DD 400G SR4 PAM4 850nm 100m MTP/MPO-12 OM4 FEC 광 트랜시버 모듈 $600.00
- Arista Networks QDD-400G-FR4 호환 400G QSFP-DD FR4 PAM4 CWDM4 2km LC SMF FEC 광 트랜시버 모듈 $600.00
- Arista Networks QDD-400G-XDR4 호환 400G QSFP-DD XDR4 PAM4 1310nm 2km MTP/MPO-12 SMF FEC 광 트랜시버 모듈 $650.00
- Arista Networks QDD-400G-LR4 호환 400G QSFP-DD LR4 PAM4 CWDM4 10km LC SMF FEC 광 트랜시버 모듈 $650.00
- Arista QDD-400G-SRBD 호환 400G QSFP-DD SR4 BiDi PAM4 850nm/910nm 100m/150m OM4/OM5 MMF MPO-12 FEC 광 트랜시버 모듈 $1000.00
- Arista Networks QDD-400G-PLR4 호환 400G QSFP-DD PLR4 PAM4 1310nm 10km MTP/MPO-12 SMF FEC 광 트랜시버 모듈 $1000.00
- Arista Q112-400G-DR4 호환 400G NDR QSFP112 DR4 PAM4 1310nm 500m MPO-12(FEC 광 트랜시버 모듈 포함) $800.00
- Arista Q112-400G-SR4 호환 400G QSFP112 SR4 PAM4 850nm 100m MTP/MPO-12 OM3 FEC 광 트랜시버 모듈 $650.00
- Arista OSFP-400G-LR4 호환 400G LR4 OSFP PAM4 CWDM4 LC 10km SMF 광 트랜시버 모듈 $1199.00
- Arista OSFP-400G-XDR4 호환 400G OSFP DR4+ 1310nm MPO-12 2km SMF 광 트랜시버 모듈 $879.00
- Arista Networks OSFP-400G-2FR4 호환 2x 200G OSFP FR4 PAM4 2x CWDM4 CS 2km SMF FEC 광 트랜시버 모듈 $3000.00
- Arista Networks OSFP-400G-FR4 호환 400G OSFP FR4 PAM4 CWDM4 2km LC SMF FEC 광 트랜시버 모듈 $900.00
- Arista Networks OSFP-400G-DR4 호환 400G OSFP DR4 PAM4 1310nm MTP/MPO-12 500m SMF FEC 광 트랜시버 모듈 $900.00
- Arista Networks OSFP-400G-SR8 호환 400G OSFP SR8 PAM4 850nm MTP/MPO-16 100m OM3 MMF FEC 광 트랜시버 모듈 $480.00
- Arista OSFP-800G-2SR4 호환 OSFP 2x400G SR4 PAM4 850nm 100m DOM 듀얼 MPO-12 MMF 광 트랜시버 모듈 $750.00
- Arista OSFP-800G-2PLR4 호환 OSFP 8x100G LR PAM4 1310nm 듀얼 MPO-12 10km SMF 광 트랜시버 모듈 $2200.00
- Arista OSFP-800G-2XDR4 호환 OSFP 8x100G FR PAM4 1310nm 듀얼 MPO-12 2km SMF 광 트랜시버 모듈 $1300.00
- Arista OSFP-800G-2LR4 호환 OSFP 2x400G LR4 PAM4 CWDM4 이중 이중 LC 10km SMF 광 트랜시버 모듈 $3700.00