In den letzten Jahren sind KI-Servercluster deutlich größer geworden. Optische Verbindungen bieten aufgrund ihrer Skalierbarkeit und Kostenvorteile die notwendigen Verbindungen für die Fernerweiterung dieser Cluster. Broadcom ist führend bei den drei wichtigsten optischen Verbindungstechnologien, die für den Aufbau großer KI-Netzwerke unverzichtbar sind.
Oberflächenemittierender Laser mit vertikaler Kavität (VCSEL)
VCSEL ist branchenweit das Rückgrat der optischen KI-Verbindungstechnologie. Aufgrund seines geringen Stromverbrauchs und seiner geringen Kosten ist es eine ideale Wahl für Datenkommunikations- und Sensoranwendungen. Die einzige Einschränkung ist sein Betrieb über kürzere Verbindungsdistanzen. Der 4x100G VCSEL wurde bereits in Massenproduktion hergestellt, und die 4x200G-Version wird voraussichtlich in der zweiten Hälfte des Jahres 2024 getestet.
Die VCSEL-Technologie von Broadcom ist in puncto Markteinführungszeit, Volumen, Leistung und Zuverlässigkeit seit jeher branchenführend. Auf der OFC2024 präsentierte Broadcom die neuesten Fortschritte bei 200G/Lane VCSEL und demonstrierte die Übertragung über 100 m OM3-Glasfaser bei 100 GBd PAM4 und 53.125 GBd PAM4, womit das Unternehmen seine Führungsposition behauptete.
Elektroabsorptionsmodulierter Laser (EML)
EML eignet sich ideal für die Erweiterung von KI-Systemen über größere Entfernungen und die Skalierung auf Hunderttausende oder sogar Millionen von Einheiten. Diese Technologie bietet eine bessere Leistung bei sehr hohen Bandbreiten, wobei die Datenraten der nächsten Generation für den Masseneinsatz ausgelegt sind. Insbesondere Broadcom hat die EML-Technologie von 100G/Lane auf 200G/Lane erweitert und eine Produktion im großen Maßstab erreicht.
Auf der OFC2023 stellte Broadcom ein vierkanaliges O-Band-CWDM-System auf Basis eines CMBH EML vor, das für 800G DR4/FR4 und 1.6T geeignet ist. Dieses EML arbeitet bei 20–70 °C mit einer konzentrierten Elektrode von 3 dB EO-BW über 60 GHz und ist für 200G/Lane-Anwendungen geeignet. Der 112.5 GBd BTB PAM4 ER beträgt 4 dB, mit einer Ausgangsleistung von mehr als 7 dBm. Der TDECQ für eine 100-Gbd-Übertragung über 2 Kilometer beträgt weniger als 3.25 dB.
Gemeinsam verpackte Optiken (CPO)
CPO integriert fortschrittliche Hochgeschwindigkeits-Siliziumphotonik heterogen in spezifische integrierte Schaltkreise, um Bandbreiten- und Leistungsherausforderungen der nächsten Generation zu bewältigen. Diese neue Technologie bietet Leistungs- und Kostenvorteile für zukünftige Generationen von KI-Systemen und ermöglicht die Infrastruktur zur Unterstützung großer KI-Netzwerke.
Auf der OFC2024 präsentierte Broadcom seinen 51.2T Bailly CPO (Co-Packaged Optics) und damit die erste kommerzielle Lieferung. Die komplette optische Verbindung ist direkt in das Paket integriert, wobei alle 512 Kanäle optisch mit dem Switch selbst verbunden sind.
Es verwendet acht FR4-Silizium-Photonik-Engines mit jeweils 64 Kanälen von 6.4 T, insgesamt 51.2 T. Die Laserlichtquelle ist extern anschließbar.
Broadcom sieht mehrere wesentliche Vorteile bei der Einführung der Co-Packaged Optics (CPO)-Technologie:
Kostenreduzierung: Da die Bandbreite und die Anzahl der Komponenten steigen, können mithilfe der Silizium-Photonik-Technologie mehr Komponenten auf einem einzigen Chip platziert werden, was zu Kosteneinsparungen führt.
Energie-Effizienz: Dieses Layout eliminiert die komplexen elektronischen Kanäle zwischen ASICs und optischen Geräten und reduziert den Stromverbrauch erheblich. Ein typischer steckbarer 800G-Transceiver verbraucht etwa 16 W pro Verbindung, während ein CPO-System die Leistung der optischen Verbindung auf 5 W reduziert. Bei 1.6 T verbrauchen herkömmliche steckbare Transceiver 25 W, während CPO nur 8 W verbraucht.
Verbesserte Zuverlässigkeit: Steckbare Transceiver haben eine Ausfallrate von etwa 2 %. Durch die Integration weiterer Komponenten in den Chip verbessert CPO die Zuverlässigkeit. Broadcoms Ansatz besteht darin, den Laser zu einer steckbaren und leicht austauschbaren Komponente innerhalb des Systems zu machen, während alles andere auf der Kernsiliziumtechnologie basiert.
Broadcom bietet eine Reihe leistungsstarker Singlemode-DFB-Laserdiodenchips mit Wellenlängen von den Bändern O bis C an, die als externe Lichtquellen für Siliziumphotonik dienen. Diese Chips basieren auf CMBH-Strukturen, bieten eine Ausgangsleistung von 20 bis 100 mW und unterstützen ungekühlte Anwendungen.
Da KI- und maschinelle Lernsysteme immer schneller vorankommen, hat Meta Platforms, Inc. auf dem OCP Global Summit 2022 die wachsende Lücke zwischen Rechenleistung und Verbindungsbandbreite hervorgehoben. Um diese Lücke zu schließen, müssen Architektur- und Designparadigmen von paketbasierten zu netzwerkbasierten Ansätzen wechseln.
In Hyperscale-Netzwerken werden Switches normalerweise in Spine- und Leaf-Anordnungen konfiguriert. Fast alle Spine-Leaf-Verbindungen sind optisch und verwenden aktive optische Kabel (AOCs), Multimode (MM), Singlemode (SM) oder kohärente Transceiver, um Entfernungen über 3 Meter zu erreichen. In Racks ist fast alles über Direct Attach Copper (DAC)-Kabel verbunden, die auf Entfernungen unter 3 Metern beschränkt sind. Unabhängig davon, ob sich Switches im Spine oder Leaf befinden, verwenden alle Switches In-Box-Kupfer, um den Kern-ASIC mit dem Frontpanel zu verbinden.
Wie unten dargestellt, durchlaufen Signale beim Durchgang durch das Kernsilizium verschiedene Übergänge (z. B. Unebenheiten, Durchkontaktierungen, Ball Grid Arrays (BGAs), elektrische Anschlüsse) und Pfadlängen (Leiterplattenspuren, Substratführung, Kartenspuren), was zu Verzerrungen führt. Wenn die Kanaldatenraten 200 Gbit/s überschreiten, werden diese Verzerrungen zu einer Herausforderung für das Timing, was zu erhöhten Bitfehlerraten oder nicht korrigierbaren Fehlern führt. Bei Switches, die optische Lösungen einsetzen, steigt der für die Verbindungen erforderliche Strom, was die thermische Kühlung und die Stromversorgungssysteme belastet. Die optimale Lösung für Anforderungen an niedrige Kosten, hohe Leistung, geringen Stromverbrauch und Zuverlässigkeit ist Silicon Chip Integrated Photonics (SCIP).
SCIP verkürzt die Hochgeschwindigkeits-Routing-Distanz zwischen ASIC und Silizium-Photonik-Chip, erreicht extrem niedrige Einfügungsverluste und verbessert dadurch die Energieeffizienz auf weniger als 1 pJ/Bit. SCIP verwendet TSV-Technologie, um die kürzeste Verbindungslänge zwischen PIC- (Photonic Integrated Circuit) und EIC- (Electrical Integrated Circuit) Chips zu erreichen.
Broadcom ist der Ansicht, dass die SCIP-Lösung (Silicon Chip Integrated Photonics) zwei Schlüsselprinzipien einhalten sollte:
- Kompatibilität mit Fertigungs- und Verpackungsprozessen: Die Lösung sollte mit Siliziumchips (bei Beibehaltung der IO-Pitch-Anpassung) und Verpackungen (Bereitstellung von Löt-Reflow-Verpackungen) kompatibel sein. Durch die Verwendung der neuesten Halbleiterprozesse, wie sie beispielsweise für High-Bandwidth Memory (HBM) verwendet werden, können Laser an einem entfernten Ort auf der optischen Maschine platziert werden, wodurch in sehr begrenzten Bereichen Platz frei wird und der Gesamtstromverbrauch des Systems erheblich gesenkt wird.
- Abnehmbare optische Verbindung mit oEngine: Der optische Anschluss muss nicht nur gemäß dem Grundprinzip eine hohe Dichte aufweisen, sondern auch abnehmbar sein. Aufgrund der höheren Ausfallrate von Lasern sind höhere Antriebsströme erforderlich, um thermische Umgebungen zu überwinden, was eine gewisse Redundanz in den Lasern erforderlich macht. Die SCIP-Plattform mit 3D-Chip-Stacking und abnehmbaren optischen Anschlüssen kann zusammen mit digitalen Signalprozessoren (DSPs) oder Switch-ASICs in Transceiver-Form verpackt werden und ist flexibel von 400 Gbit/s FR4 oder DR4 auf 3.2 Tbit/s DR oder 6.4 Tbit/s FR4 skalierbar.
Nachdem diese Prinzipien festgelegt wurden, können wir uns nun auf optische IO konzentrieren.
Die auf SCIP I/O basierende CPO-Verbindung (Co-Packaged Optics) kann für verschiedene Verbindungen innerhalb von Rechenzentren verwendet werden, darunter traditionelle Netzwerkschichten von Rechenzentren, KI-Trainings-/Hochleistungsrechnerverbindungen, Ressourcenpooling und Speicherdisaggregation, wie unten gezeigt. Die erste Anwendung besteht darin, dass die auf SCIP I/O basierende PCIe-Verbindung skalierbare Lösungen für verschiedene Cluster (NPU, GPU, CPU, Speicher, Speicher und Netzwerkschnittstellenkarten (NICs)) bereitstellen kann. Die zweite Anwendung besteht darin, dass die CXL-Verbindung über SCIP I/O zur Speicherdisaggregation verwendet werden kann, wobei mehrere CPUs über einen optischen Switch mit mehreren Speichereinheiten verbunden werden.
Broadcoms SCIP I/O-Chip-Stapelung wird mithilfe der CoW-Technologie (Chip-on-Wafer) zusammengesetzt, wobei der Querschnitt wie folgt aussieht: Der EIC (Electrical Integrated Circuit) wird nach der Gießereiverarbeitung zur Ausdünnung der Rückseite mit einem Glasträger verbunden, gefolgt von einer TSV-Verarbeitung (Through-Silicon Via) DRIE-Verarbeitung (Deep Reactive Ion Etching) mit einem TSV-Abstand von 130 µm. Eine einzelne RDL-Beschichtung (Redistribution Layer) wird verwendet, um den TSV zu füllen und Routing-Drähte zu bilden. Anschließend werden CuP-Verbindungen (Copper Pillar) auf der Rückseite des EIC gebildet, um den PIC-Chip (Photonic Integrated Circuit) zu füllen und durch Thermokompression mit ihm zu verbinden. Der Wafer wird dann getarnt zerteilt. Abschließend werden ASIC und SCIP gemeinsam verpackt, wobei der ASIC mittels SMT (Surface-Mount Technology) mit dem Substrat verbunden wird und der SCIP mithilfe eines flussmittelfreien Reflow-Prozesses mit dem Substrat verbunden wird. Dadurch wird sichergestellt, dass die optischen Komponenten nicht durch Wasserspülung oder Flussmittelrückstände verunreinigt werden.
Broadcoms SCIP I/O-Demonstration gibt es in zwei Formen:
- 8-Kanal-SCIP-E/A: Dies ist mit einem ASIC ausgestattet und bietet eine Gesamtbandbreite von 800 Gb/s, geeignet für MSA-definierte QSFP-DD-Transceiver. Das SCIP integriert Laser und eine abnehmbare optische Anschlussschnittstelle.
- 4 x 32-Kanal-SCIP-E/A: Dies ist mit einem 25.6-Tbit/s-Ethernet-Switch ausgestattet. Der CPO verfügt über eine optische E/A-Bandbreite von 12.8 Tbit/s, wobei die andere Hälfte für die schnelle elektrische E/A-Übertragung genutzt wird. Jeder SCIP verfügt über einen abnehmbaren Glasfaseranschluss für optische Schnittstellen. Das System unterstützt die Remote-Laserkonfiguration, bei der der SCIP über die optische Anschlussschnittstelle mit optischer Energie versorgt wird.
Das Remote-Laserquellenmodul folgt dem steckbaren QSFP-DD-Paket. Die optische Leistungsspezifikation jedes Kanals kann bis zu 21 dBm erreichen, mit guter Wiederholbarkeit.
Das folgende Diagramm zeigt den elektrischen Kanalverlust für die Übertragungs- und Empfangspfade zwischen der optischen Engine und dem Switch-ASIC. Standardarchitekturen erfordern einen elektrischen Einfügungsverlust von bis zu 20 dB, aber der entsprechende Einfügungsverlust des Co-Packaged-Systems beträgt nur 2-3 dB. Die Schnittstelle hat einen sehr geringen Stromverbrauch: Während herkömmliche optische Transceivermodule 15-20 pJ/Bit verbrauchen, verbraucht die Co-Packaged-Technologie nur 5-10 pJ/Bit, wodurch der Stromverbrauch der optischen Schnittstelle um die Hälfte reduziert wird.
Die Übertragungsleistung der SCIP-E/A-Verbindung wird an der Hostschnittstelle unter 100G/Lane PAM4-Modulation gemessen. Die 8-Kanal-SCIP-E/A hat einen TDECQ von ca. 2.15 – 2.7 dB und einen ER von ca. 3.85 – 4.1 dB. Die 32-Kanal-SCIP-E/A hat einen TDECQ von 1.8 – 2.3 dB und einen ER von ca. 4 – 5 dB.
Die Leistungsbewertung des Verbindungsempfängers basiert auf Messungen der Bitfehlerrate (BER) vor FEC. Die BER wird typischerweise als Funktion der optischen Modulationsamplitude (OMA) dargestellt und hat eine Badewannenform, wobei die optimale OMA (BER-Boden) die niedrigste BER hat. Unterhalb der optimalen OMA steigt die BER aufgrund von Rauschen, während oberhalb der optimalen OMA die BER aufgrund von Nichtlinearität steigt, die mit Überlastungsbeschränkungen des Transimpedanzverstärkers (TIA) verbunden ist. Der 8-Kanal-SCIP-E/A hat eine BER von ungefähr 1e-9 und der 32-Kanal-SCIP-E/A hat eine BER von ungefähr 1e-7. Der 32-Kanal-SCIP-E/A steuert die optische Schnittstelle direkt an, ohne dass sich ein DSP im Pfad befindet. Somit reduziert SCIP-E/A den Stromverbrauch und die Kosten, indem zusätzlicher DSP im Pfad eliminiert wird, während eine vergleichbare Leistung bereitgestellt wird.
Zusammenfassend bietet SCIP-basierte optische E/A zwei Vorteile: Sie reduziert die Routing-Komplexität und vergrößert die physische Distanz zwischen Clustern. Die SCIP-Lösung kann die Lücke zwischen den Rechenkapazitäten realer Systeme und denen technologischer Knoten schließen, mehr Bandbreite für externe Cluster bereitstellen und die E/A-Effizienz des Gesamtsystems verbessern.