최근 몇 년 동안 AI 서버 클러스터의 크기가 상당히 커졌습니다. 광 링크는 확장성과 비용 이점 덕분에 이러한 클러스터의 장거리 확장에 필요한 연결을 제공합니다. Broadcom은 대규모 AI 네트워크를 구축하는 데 필수적인 3가지 핵심 광 상호 연결 기술의 선두주자입니다.
수직 공동 표면 방출 레이저(VCSEL)
VCSEL은 업계 전반의 광학 AI 상호 연결 기술의 주축입니다. 낮은 전력 소모와 비용으로 데이터 통신 및 감지 애플리케이션에 이상적인 선택입니다. 유일한 제한 사항은 짧은 연결 거리에서 작동한다는 것입니다. 4x100G VCSEL은 이미 양산되었으며 4x200G 버전은 2024년 하반기에 샘플링될 예정입니다.
Broadcom의 VCSEL 기술은 출시 시간, 양, 성능 및 안정성 측면에서 업계를 지속적으로 선도해 왔습니다. OFC2024에서 Broadcom은 200G/lane VCSEL에서 최신 진전을 달성하여 100GBd PAM3 및 100GBd PAM4에서 53.125m OM4 파이버를 통한 전송을 시연하여 선두 자리를 유지했습니다.
전기흡수 변조 레이저(EML)
EML은 AI 시스템을 더 먼 거리로 확장하고 수십만 또는 수백만 개의 단위로 확장하는 데 이상적입니다. 이 기술은 매우 높은 대역폭에서 더 나은 성능을 제공하며, 차세대 데이터 속도는 대량 배포를 위해 설정되었습니다. 특히 Broadcom은 EML 기술을 100G/레인에서 200G/레인으로 확장하고 대량 생산을 달성했습니다.
OFC2023에서 Broadcom은 800G DR4/FR4 및 1.6T에 적용 가능한 CMBH EML을 기반으로 하는 20채널 O-밴드 CWDM 시스템을 보고했습니다. 이 EML은 70-3°C에서 작동하며, 60GHz를 초과하는 덩어리 전극 200dB EO-BW는 112.5G/레인 애플리케이션에 적합합니다. 4GBd BTB PAM4 ER은 7dB이고 출력 전력은 100dBm보다 큽니다. 2km를 통한 3.25Gbd 전송에 대한 TDECQ는 XNUMXdB 미만입니다.
공동 포장 광학(CPO)
CPO는 차세대 대역폭 및 전력 문제를 해결하기 위해 고급 고속 실리콘 광자공학을 특정 집적 회로에 이질적으로 통합합니다. 이 새로운 기술은 차세대 AI 시스템에 전력 및 비용 이점을 제공하고 인프라가 대규모 AI 네트워크를 지원할 수 있도록 합니다.
OFC2024에서 Broadcom은 51.2T Bailly CPO(Co-Packaged Optics)를 선보이며 첫 상용 출하를 알렸습니다. 전체 광 링크는 패키지에 직접 통합되어 있으며, 모든 512개 채널은 스위치 자체에 광학적으로 연결됩니다.
4개의 FR64 실리콘 광자 엔진을 사용하는데, 각각 6.4T의 51.2개 채널, 총 XNUMXT입니다. 레이저 광원은 외부 플러그가 가능합니다.
Broadcom은 CPO(Co-Packaged Optics) 기술 채택의 핵심적인 이점을 다음과 같이 파악했습니다.
비용 절감: 대역폭과 구성 요소 수가 증가함에 따라 실리콘 광자공학 기술을 사용하면 단일 칩에 더 많은 구성 요소를 배치할 수 있어 비용이 절감됩니다.
전력 효율: 이 레이아웃은 ASIC과 광 장치 간의 복잡한 전자 채널을 제거하여 전력 소비를 크게 줄입니다. 일반적인 800G 플러그형 트랜시버는 링크당 약 16W를 소비하는 반면 CPO 시스템은 광 링크 전력을 5W로 줄입니다. 1.6T의 경우 기존 플러그형 트랜시버는 25W를 소비하는 반면 CPO는 8W만 소비합니다.
향상된 신뢰성: 플러그형 트랜시버의 고장률은 약 2%입니다. CPO는 칩에 더 많은 구성 요소를 통합함으로써 신뢰성을 향상시킵니다. Broadcom의 접근 방식은 레이저를 시스템 내에서 플러그형이고 쉽게 교체할 수 있는 구성 요소로 만드는 것이며, 다른 모든 것은 핵심 실리콘 기술에 기반합니다.
Broadcom은 O에서 C 대역에 걸친 파장을 가진 다양한 고출력 단일 모드 DFB 레이저 다이오드 칩을 제공하며, 이는 실리콘 포토닉스의 외부 광원으로 사용됩니다. CMBH 구조를 기반으로 하는 이러한 칩은 20~100mW 범위의 출력 전력을 제공하고 비냉각 애플리케이션을 지원합니다.
AI와 머신 러닝 시스템이 계속 가속화됨에 따라 Meta Platforms, Inc.는 2022 OCP 글로벌 서밋에서 컴퓨팅 파워와 상호 연결 대역폭 간의 격차가 커지고 있음을 강조했습니다. 이 격차를 메우기 위해 아키텍처 및 디자인 패러다임은 패킷 기반에서 네트워크 기반 접근 방식으로 전환해야 합니다.
하이퍼스케일 네트워크에서 스위치는 일반적으로 스파인과 리프 배열로 구성됩니다. 거의 모든 스파인-리프 연결은 광학적이며, 3m 이상의 거리를 달성하기 위해 활성 광 케이블(AOC), 멀티모드(MM), 싱글모드(SM) 또는 코히어런트 트랜시버를 사용합니다. 랙 내에서는 거의 모든 것이 DAC(직접 연결 구리) 케이블을 통해 연결되며, 거리는 3m 미만으로 제한됩니다. 스위치가 스파인에 있든 리프에 있든 모든 스위치는 인박스 구리를 사용하여 코어 ASIC를 전면 패널에 연결합니다.
아래 그림과 같이 신호가 코어 실리콘을 통과할 때 다양한 전이(예: 범프, 비아, 볼 그리드 어레이(BGA), 전기 커넥터)와 경로 길이(PCB 트레이스, 기판 라우팅, 카드 트레이스)를 겪어 왜곡이 발생합니다. 채널 데이터 속도가 200Gbps를 초과하면 이러한 왜곡으로 인해 타이밍이 어려워져 비트 오류율이 증가하거나 오류가 수정되지 않습니다. 광 솔루션을 구축하는 스위치의 경우 연결에 필요한 전력이 증가하여 열 냉각 및 전력 공급 시스템에 부담을 줍니다. 저비용, 고성능, 저전력 및 안정성 요구 사항에 대한 최적의 솔루션은 실리콘 칩 통합 광자공학(SCIP) 형태입니다.
SCIP는 ASIC과 실리콘 광자 칩 사이의 고속 라우팅 거리를 단축하여 삽입 손실을 극도로 낮추고 에너지 효율을 1pJ/비트 미만으로 개선합니다. SCIP는 TSV 기술을 사용하여 PIC(Photonic Integrated Circuit)와 EIC(Electrical Integrated Circuit) 칩 사이의 가장 짧은 상호 연결 길이를 달성합니다.
Broadcom은 SCIP(Silicon Chip Integrated Photonics) 솔루션이 두 가지 핵심 원칙을 준수해야 한다고 생각합니다.
- 제조 및 패키징 공정과의 호환성: 솔루션은 실리콘 칩(IO 피치 매칭 유지) 및 패키징(솔더 리플로우 패키징 제공)과 호환되어야 합니다. 고대역폭 메모리(HBM)에 사용되는 것과 같은 최신 반도체 공정을 활용함으로써 레이저를 광학 엔진에 원격으로 배치하여 매우 제한된 영역의 공간을 확보하고 전체 시스템 전력 소비를 크게 줄일 수 있습니다.
- oEngine과 분리형 광 상호 연결: 광 커넥터는 첫 번째 원칙에 따라 높은 밀도를 유지할 뿐만 아니라 분리 가능해야 합니다. 레이저의 고장률이 높기 때문에 열 환경을 극복하기 위해 더 높은 구동 전류가 필요하여 레이저에 약간의 중복성이 필요합니다. 3D 칩 스태킹과 분리형 광 커넥터가 있는 SCIP 플랫폼은 디지털 신호 프로세서(DSP) 또는 스위치 ASIC와 함께 트랜시버 형태로 공동 패키징하여 400Gbps FR4 또는 DR4에서 3.2Tbps DR 또는 6.4Tbps FR4까지 유연하게 확장할 수 있습니다.
이러한 원칙을 확립했으므로 이제 광 IO에 집중할 수 있습니다.
SCIP I/O를 기반으로 하는 CPO(Co-Packaged Optics) 링크는 아래에 표시된 것처럼 기존 데이터 센터 네트워크 계층, AI 교육/고성능 컴퓨팅 링크, 리소스 풀링 및 메모리 분리를 포함하여 데이터 센터 내의 다양한 연결에 사용될 수 있습니다. 첫 번째 응용 프로그램은 SCIP I/O를 기반으로 하는 PCIe 링크가 다양한 클러스터(NPU, GPU, CPU, 메모리, 스토리지 및 네트워크 인터페이스 카드(NIC))에 대한 확장 가능한 솔루션을 제공할 수 있다는 것입니다. 두 번째 응용 프로그램은 SCIP I/O를 통한 CXL 링크가 메모리 분리에 사용될 수 있다는 것입니다. 여기서 여러 CPU는 광 스위치를 통해 여러 메모리 장치와 상호 연결됩니다.
Broadcom의 SCIP I/O 칩 스태킹은 CoW(Chip-on-Wafer) 기술을 사용하여 조립되며, 단면은 다음과 같습니다. EIC(Electrical Integrated Circuit)는 주조 공정을 거쳐 뒷면을 얇게 한 후 유리 캐리어에 연결되고, TSV(Through-Silicon Via) DRIE(Deep Reactive Ion Etching) 공정을 거치며, TSV 피치는 130um입니다. 단일 RDL(Redistribution Layer) 도금을 사용하여 TSV를 채우고 라우팅 와이어를 형성합니다. 그런 다음 EIC 뒷면에 CuP(Copper Pillar) 상호 연결을 형성하여 PIC(Photonic Integrated Circuit) 칩을 채우고 열압착합니다. 그런 다음 웨이퍼를 스텔스 다이싱합니다. 마지막으로, ASIC과 SCIP를 공동 패키징합니다. ASIC은 SMT(표면 실장 기술)를 사용하여 기판에 접합하고, SCIP는 플럭스를 사용하지 않는 리플로우 공정을 사용하여 기판에 접합합니다. 이렇게 하면 물 세척이나 플럭스 잔여물이 광학 부품을 오염시키지 않습니다.
Broadcom의 SCIP I/O 데모는 두 가지 형태로 제공됩니다.
- 8채널 SCIP I/O: ASIC와 함께 패키징되어 총 대역폭 800Gb/s를 제공하며 MSA 정의 QSFP-DD 트랜시버에 적합합니다. SCIP는 레이저와 분리형 광 커넥터 인터페이스를 통합합니다.
- 4 x 32CH SCIP I/O: 25.6Tb/s 이더넷 스위치와 함께 제공됩니다. CPO는 12.8Tb/s의 광 I/O 대역폭을 가지고 있으며, 나머지 절반은 고속 전기 I/O 전송에 사용됩니다. 각 SCIP에는 광 인터페이스를 위한 분리형 광 파이버 커넥터가 있습니다. 이 시스템은 광 커넥터 인터페이스를 통해 SCIP에 광 전원이 공급되는 원격 레이저 구성을 지원합니다.
원격 레이저 소스 모듈은 플러그형 QSFP DD 패키지를 따릅니다. 각 채널의 광 전력 사양은 최대 21dBm에 도달할 수 있으며 반복성이 좋습니다.
아래 다이어그램은 광 엔진과 스위치 ASIC 사이의 전송 및 수신 경로에 대한 전기적 채널 손실을 보여줍니다. 표준 아키텍처는 최대 20dB의 전기적 삽입 손실이 필요하지만, 공동 패키지 시스템의 동등한 삽입 손실은 2-3dB에 불과합니다. 인터페이스는 전력 소모가 매우 낮아 기존 광 트랜시버 모듈은 15-20pJ/비트를 소모하는 반면, 공동 패키지 기술은 5-10pJ/비트만 소모하여 광 인터페이스에 필요한 전력을 절반으로 줄입니다.
SCIP I/O 링크의 전송 성능은 100G/lane PAM4 변조 하에서 호스트 인터페이스에서 측정됩니다. 8채널 SCIP I/O는 약 2.15~2.7dB의 TDECQ와 약 3.85~4.1dB의 ER을 갖습니다. 32채널 SCIP I/O는 1.8~2.3dB의 TDECQ와 약 4~5dB의 ER을 갖습니다.
상호 연결 수신기 성능 평가는 FEC 이전 비트 오류율(BER) 측정을 기반으로 합니다. BER은 일반적으로 광 변조 진폭(OMA)의 함수로 표시되며 욕조 모양을 가지며 최적의 OMA(BER 플로어)가 가장 낮은 BER을 갖습니다. 최적의 OMA 아래에서는 노이즈로 인해 BER이 증가하고, 최적의 OMA 위에서는 트랜스임피던스 증폭기(TIA) 과부하 제한과 관련된 비선형성으로 인해 BER이 증가합니다. 8채널 SCIP I/O의 BER은 약 1e-9이고 32채널 SCIP I/O의 BER은 약 1e-7입니다. 32채널 SCIP I/O는 경로에 DSP가 없이 광 인터페이스를 직접 구동합니다. 따라서 SCIP I/O는 경로에서 추가 DSP를 제거하여 전력 소비와 비용을 줄이는 동시에 비슷한 성능을 제공합니다.
요약하자면, SCIP 기반 광 I/O는 라우팅 복잡성을 줄이고 클러스터 간의 물리적 거리를 늘리는 두 가지 이점을 제공합니다. SCIP 솔루션은 실제 시스템의 계산 능력과 기술 노드가 제공하는 계산 능력 간의 격차를 메워 외부 클러스터에 더 많은 대역폭을 제공하고 전체 시스템의 I/O 효율성을 개선할 수 있습니다.