광 컴퓨팅 상호 연결

개요

인공 지능(AI)과 머신 러닝(ML)의 급속한 발전 속에서 더 빠르고 효율적이며 확장 가능한 컴퓨팅 인프라에 대한 수요가 빠르게 증가하고 있습니다. AI로 가능한 것의 경계를 계속 넓혀가면서 데이터 전송 및 처리에 새로운 과제가 생겨나고 있습니다. Optical Computing Interconnect(OCI) 기술도 AI 시스템을 구축하고 연결하는 방식에 혁명을 일으킬 것으로 기대되는 획기적인 기술로 떠올랐습니다.

과제: AI 인프라의 입력/출력 병목 현상

AI 모델이 더 복잡하고 커짐에 따라 컴퓨팅 노드 간에 전송해야 하는 데이터 양이 기하급수적으로 증가합니다. 기존의 전기적 상호 연결은 이러한 요구 사항을 충족하는 데 어려움을 겪으며, AI 시스템의 전반적인 성능을 제한하는 병목 현상이 발생합니다.

잘 알려진 과제도 이제 AI로 가속화됩니다.

잘 알려진 과제도 이제 AI로 가속화됩니다.

이 다이어그램은 컴퓨팅 네트워크 상호 연결이 역사적으로 AI 애플리케이션의 진화하는 대역폭 요구 사항보다 뒤떨어져 있음을 명확히 보여줍니다. AI가 계속 발전함에 따라 이 격차는 더욱 벌어질 것으로 예상되며, 새로운 솔루션에 대한 시급한 필요성이 생깁니다.

솔루션: 광전자 집적 및 OCI

이러한 과제를 해결하기 위해 연구자와 엔지니어는 광전자 통합, 특히 광 컴퓨팅 상호 연결(OCI) 기술로 전환하고 있습니다. OCI는 빛을 사용하여 데이터를 전송하는데, 이는 기존의 전기 상호 연결에 비해 몇 가지 주요 이점이 있습니다.

  • 더 높은 대역폭
  • 더 낮은 밀도로 더 낮은 전력 소모
  • 낮은 대기 시간
  • 더 긴 전송 거리

AI 인프라에 OCI 적용

OCI 기술은 AI 인프라에 컴퓨팅 패브릭(AI/ML 클러스터)과 리소스 분해라는 두 가지 주요 응용 분야에 사용됩니다.

컴퓨팅 패브릭(AI/ML 클러스터)

AI/ML 클러스터에서 OCI는 노드 간 연결이나 스위치 패브릭 구성으로 CPU/GPU 기반 서버를 연결하는 데 사용할 수 있습니다.

이 애플리케이션은 다음과 같은 몇 가지 장점을 제공합니다.

  • 더 큰 클러스터에 대해 더 많은 대역폭을 제공합니다.
  • 구리 상호 연결로 전송 거리 확장
  • 낮은 대기 시간
  • 전력 소비 감소
AI/ML 클러스터 컴퓨팅 Fabric에서 OCI 적용

AI/ML 클러스터 컴퓨팅 Fabric에서 OCI 적용

이 다이어그램은 OCI를 사용하여 AI/ML 클러스터에서 여러 XPU(CPU/GPU) 노드를 연결하고 컴퓨팅 리소스 간에 고대역폭, 저지연 통신을 구현하는 방법을 보여줍니다.

리소스 분해

OCI는 또한 리소스 분해를 가능하게 하여 여러 컴퓨팅 노드에서 더 큰 공유 리소스 풀을 생성할 수 있습니다. 이 접근 방식은 여러 가지 이점을 제공합니다.

  • 패키징 및 슬롯 제약으로부터 무료 리소스
  • 자원 활용도와 효율성을 개선하세요
  • 지연 시간에 민감한 연결
  • 높은 대역폭 밀도
  • 낮은 전력 소비
자원분할에 있어서 OCI의 적용

자원분할에 있어서 OCI의 적용

이 다이어그램은 OCI가 CPU/XPU, 메모리, 가속기, 스토리지 등 다양한 컴퓨팅 리소스를 분해하여 AI 인프라에서 이러한 구성 요소를 보다 유연하고 효율적으로 활용할 수 있는 방식을 보여줍니다.

인텔의 OCI 접근 방식

인텔은 OCI 개발의 최전선에 있으며, 실리콘 기반 광자공학과 고급 패키징 분야의 전문 지식을 활용해 AI 인프라를 위한 확장 가능한 솔루션을 만듭니다.

그들의 접근 방식은 세 가지 핵심 영역에 초점을 맞춥니다.

  • 광전자 집적 칩(PIC)에 더 많은 광전자 기능을 통합
  • 고급 패키징 기술을 사용하여 PIC를 동급 최고의 전자 집적 회로(EIC)와 통합
  • 호스트(XPU, 스위치)와 광 칩렛의 긴밀한 통합
인텔의 OCI 칩렛-Gen1

인텔의 OCI 칩렛-Gen1

이 다이어그램은 인텔의 OCI 칩렛 개념을 보여줍니다. OCI 모듈과 xPU(CPU 또는 GPU)를 긴밀하게 통합하여 컴퓨팅 장치에서 직접 고대역폭, 저지연 광통신을 가능하게 합니다.

OCI와 AI 인프라의 미래

AI가 계속 발전하고 더 강력한 컴퓨팅 파워에 대한 수요가 증가함에 따라 OCI 기술은 차세대 AI 인프라를 구축하는 데 중요한 역할을 할 것입니다. 인텔의 OCI 개발 로드맵에는 다음이 포함됩니다.

  • 파장의 수를 확장하다
  • 회선 속도 증가
  • 광섬유의 개수를 확대하다
  • 편광기술을 활용하다

이러한 발전을 통해 대역폭, 전력 효율성, 확장성이 지속적으로 개선되어 궁극적으로 더 강력하고 효율적인 AI 시스템이 가능해질 것입니다.

Intel OCI 확장 로드맵

Intel OCI 확장 로드맵

이 차트는 OCI 기술 확장에 대한 인텔의 대규모 계획을 보여줍니다. 이 계획은 향후 반복 작업에서 대역폭을 2Tbps PCIe5/CXL에서 16Tbps UCIe/DWDM으로 크게 늘릴 것으로 예상됩니다.

요약하자면, OCI 기술은 현대 AI 인프라의 상호 연결 과제를 해결하는 데 있어 상당한 진전을 나타냅니다. 통합 포토닉스의 힘을 활용하여 OCI는 차세대 AI 및 ML 애플리케이션에 필요한 대역폭, 지연 시간 및 전력 효율성을 제공할 것으로 기대됩니다. 인텔과 같은 회사가 이 기술에 계속 투자하고 개발함에 따라 AI의 가능성을 더욱 발전시킬 더욱 강력하고 효율적인 AI 시스템을 기대할 수 있습니다.

OCI 기술의 구체적인 구현 인텔은 OCI 기술 구현에서 상당한 진전을 이루었습니다. 다음은 몇 가지 주요 기술 세부 사항입니다.

광자 집적 회로(PIC)

인텔은 다음과 같은 기능을 갖춘 완전히 통합된 8Tbps PIC 칩을 개발했습니다.

  • 고밀도 파장 분할 다중화(DWDM) 광 인터페이스
  • 8개 파이버 쌍 x 8개 파장 x 64G, CW-WDM MSA 표준 준수
  • 각 방향으로 4Tbps 처리량
  • 낮은 수치 조리개와 수동 정렬을 위한 V 홈을 갖춘 표준 단일 모드 파이버 출력
인텔의 8Tbps 광자 집적 회로

 인텔의 8Tbps 광자 집적 회로

이 고도로 통합된 PIC에는 온칩 레이저 소스, 고효율 마이크로링 변조기, 게르마늄 광 검출기, 반도체 광 증폭기를 포함한 완전한 광학 서브시스템이 들어 있습니다. 이러한 높은 수준의 통합은 성능을 향상시킬 뿐만 아니라 비용과 전력 소비도 줄입니다.

이기종 통합

인텔은 웨이퍼 레벨의 이종 통합 기술을 사용하여 III-V 재료(예: InP)를 실리콘 기반 광전자 장치와 통합합니다. 이 접근 방식에는 다음과 같은 장점이 있습니다.

  • 성능: 커플링 손실 최소화
  • 신뢰성: 레이저 신뢰성 < 0.1 FIT
  • 제조 가능성: 웨이퍼 레벨에서 알려진 양호한 다이(KGD)까지
  • 비용: 비싼 레이저 백엔드가 필요 없음
  • 확장성: 높은 채널 수, 리소스 공유
  • 유연성: 다중 파장 기능, 백업
III-V 레이저/SOA의 이종 집적

III-V 레이저/SOA의 이종 집적

이러한 이기종 통합 기술은 8만 개가 넘는 온칩 레이저를 탑재한 하이퍼스케일 클라우드 서비스 제공업체에 배치된 32만 개가 넘는 PIC에서 시연되었습니다.

OCI 칩렛

인텔의 OCI 칩렛은 인텔의 실리콘 포토닉스 기술을 사용하여 광 I/O를 제공하는 다이 스택이며 xPU와 함께 패키징할 수 있습니다. 1세대 OCI 칩렛의 주요 매개변수는 다음과 같습니다.

  • 호스트 인터페이스: PCIe gen5 SerDes 인터페이스
  • 광학 측면: 8개 파이버 x 8개 파장 x 32G NRZ, 단일 모드 파이버를 통한 고밀도 파장 분할 다중화
  • 총 대역폭: 4Tbps(각 방향 2Tbps)
  • 종단간 비트 오류율: < 1E-12

  • 에너지 효율성: ~5 pJ/비트

OFC 2024에서 시연된 인텔의 컨셉 CPU와 공동 패키지된 OCI는 이 기술의 실제적 적용을 보여주었습니다. 이 시연은 광 링크 측면에서만 OCI 기술이 플러그형 모듈보다 3배 이상의 전력과 5배 이상의 밀도 개선을 제공한다는 것을 보여주었습니다.

OCI 기술의 미래 발전

인텔은 다음과 같은 주요 방향을 포함하여 OCI 기술 개발에 대한 명확한 로드맵을 가지고 있습니다.

  • 파장 수 확장 : 현재 8파장에서 16파장 이상으로 확대
  • 라인 속도 증가: 32G NRZ에서 64G PAM4로, 미래에는 128G 이상으로 높아질 수 있습니다.
  • 광섬유 수의 증가 : 소형화를 유지하면서 광섬유 수를 늘려 전체 대역폭을 증가시킵니다.
  • 편파 기술 활용: 편파 다중화를 통해 대역폭 밀도를 더욱 높입니다.

이러한 발전을 통해 OCI 기술은 더 높은 대역폭, 더 낮은 지연 시간, 더 높은 에너지 효율성을 갖춰 AI 및 고성능 컴퓨팅 애플리케이션을 지원할 수 있게 됩니다.

결론

OCI 기술은 AI 인프라 상호 연결에서 중요한 돌파구를 나타냅니다. 통합 광전자의 이점을 활용하여 OCI는 차세대 AI 및 ML 애플리케이션에 필요한 고대역폭, 낮은 대기 시간 및 높은 에너지 효율성을 제공합니다. Intel과 같은 회사가 이 기술에 계속 투자하고 개발함에 따라 더 강력하고 효율적인 AI 시스템이 등장하여 인공 지능 분야에서 지속적인 진전을 이룰 것으로 예상할 수 있습니다.

OCI 기술은 현재 AI 인프라가 직면한 과제를 해결할 뿐만 아니라 미래 개발을 위한 확장 가능한 솔루션을 제공합니다. 지속적인 기술 혁신과 산업 협력을 통해 OCI는 차세대 AI 및 고성능 컴퓨팅 인프라를 지원하는 핵심 기술이 될 잠재력을 가지고 있습니다.

이 글에서는 OCI 기술의 원리, 응용 분야, 개발 전망을 자세히 소개하여 독자들에게 이 새로운 기술에 대한 포괄적인 이해를 제공하고자 합니다. 기술이 계속 발전함에 따라 OCI가 AI와 고성능 컴퓨팅 분야를 발전시키는 데 점점 더 중요한 역할을 할 것으로 예상할 수 있습니다.

코멘트 남김

위쪽으로 스크롤