Introducción
En medio del rápido desarrollo de la inteligencia artificial (IA) y el aprendizaje automático (ML), la demanda de una infraestructura informática más rápida, eficiente y escalable está creciendo rápidamente. A medida que continuamos ampliando los límites de lo que es posible con la IA, surgen nuevos desafíos en la transmisión y el procesamiento de datos. La tecnología de interconexión informática óptica (OCI) también ha surgido como una tecnología innovadora que se espera que revolucione la forma en que construimos y conectamos los sistemas de IA.
Desafío: cuellos de botella de entrada/salida en la infraestructura de IA
A medida que los modelos de IA se vuelven más complejos y grandes, la cantidad de datos que deben transmitirse entre nodos informáticos crece exponencialmente. Las interconexiones eléctricas tradicionales tienen dificultades para satisfacer estas demandas, lo que crea cuellos de botella que limitan el rendimiento general de los sistemas de IA.
La IA acelera ahora los desafíos conocidos
Este diagrama muestra claramente cómo las interconexiones de redes informáticas han quedado rezagadas históricamente respecto de los requisitos de ancho de banda en constante evolución de las aplicaciones de IA. A medida que la IA siga avanzando, se espera que esta brecha se amplíe aún más, lo que creará una necesidad urgente de nuevas soluciones.
Solución: Integración fotoelectrónica y OCI
Para abordar estos desafíos, los investigadores e ingenieros están recurriendo a la integración fotoelectrónica, en concreto a la tecnología de interconexión óptica computacional (OCI). La OCI utiliza luz para transmitir datos, lo que presenta varias ventajas clave respecto de las interconexiones eléctricas tradicionales:
- Mayor ancho de banda
- Menor consumo de energía con menor densidad.
- Baja latencia
- Mayor distancia de transmisión
Aplicación de OCI en la infraestructura de IA
La tecnología OCI tiene dos aplicaciones principales en la infraestructura de IA: tejido informático (clúster IA/ML) y descomposición de recursos.
Tejido informático (clúster de IA/ML)
En los clústeres de IA/ML, OCI se puede utilizar para conectar servidores basados en CPU/GPU, ya sea como conexiones de nodo a nodo o en configuraciones de estructura conmutada.
Esta aplicación ofrece varias ventajas:
- Proporciona mayor ancho de banda para clústeres más grandes.
- Las interconexiones de cobre amplían las distancias de transmisión
- Baja latencia
- Consumo de energía reducido
Aplicación de OCI en la infraestructura informática de clústeres de IA/ML
Este diagrama muestra cómo se utiliza OCI para conectar múltiples nodos XPU (CPU/GPU) en un clúster AI/ML, lo que permite una comunicación de gran ancho de banda y baja latencia entre recursos informáticos.
Desglose de recursos
OCI también permite la descomposición de recursos, lo que permite la creación de grupos de recursos compartidos más grandes entre varios nodos de cómputo. Este enfoque ofrece varias ventajas:
- Recursos gratuitos por limitaciones de espacio y empaquetado
- Mejorar la utilización y eficiencia de los recursos
- Conexiones sensibles a la latencia
- Alta densidad de ancho de banda
- Bajo consumo de energía
La aplicación del OCI en la desagregación de recursos
Este diagrama muestra cómo OCI permite la descomposición de varios recursos computacionales, como CPU/XPU, memoria, aceleradores y almacenamiento, lo que permite una utilización más flexible y eficiente de estos componentes en la infraestructura de IA.
El enfoque OCI de Intel
Intel está a la vanguardia del desarrollo de OCI, aprovechando su experiencia en fotónica basada en silicio y empaquetado avanzado para crear soluciones escalables para la infraestructura de IA.
Su enfoque se centra en tres áreas clave:
- Integrar más funciones fotoelectrónicas en chips fotoelectrónicos integrados (PIC)
- Integre el PIC con el mejor circuito integrado electrónico (EIC) de su clase utilizando tecnología de empaquetado avanzada
- Integración más estrecha de los chiplets ópticos con el host (XPU, conmutador)
Chiplet OCI Gen1 de Intel
Este diagrama ilustra el concepto de chiplet OCI de Intel, que integra estrechamente la xPU (CPU o GPU) con el módulo OCI para permitir una comunicación óptica de gran ancho de banda y baja latencia directamente desde la unidad de cómputo.
OCI y el futuro de la infraestructura de IA
A medida que la IA continúa avanzando y aumenta la demanda de una mayor capacidad de procesamiento, la tecnología OCI desempeñará un papel clave a la hora de hacer posible la próxima generación de infraestructura de IA. La hoja de ruta de desarrollo de OCI de Intel incluye:
- Ampliar el número de longitudes de onda
- Aumentar la velocidad de línea
- Ampliar el número de fibras ópticas
- Utilice tecnología de polarización
Estos avances permitirán mejoras continuas en el ancho de banda, la eficiencia energética y la escalabilidad, lo que en última instancia posibilitará sistemas de IA más potentes y eficientes.
La hoja de ruta de escalamiento de Intel OCI
Este gráfico muestra el gran plan de Intel para la expansión de la tecnología OCI, que se espera que aumente significativamente el ancho de banda de 2 Tbps PCIe5/CXL a 16 Tbps UCIe/DWDM en futuras iteraciones.
En resumen, la tecnología OCI representa un avance significativo en la solución de los desafíos de interconexión de la infraestructura de IA moderna. Al aprovechar el poder de la fotónica integrada, se espera que OCI proporcione el ancho de banda, la latencia y la eficiencia energética necesarios para las aplicaciones de IA y ML de próxima generación. A medida que empresas como Intel sigan invirtiendo y desarrollando esta tecnología, podemos esperar ver sistemas de IA cada vez más potentes y eficientes que impulsarán las posibilidades de la IA.
Implementación específica de la tecnología OCI Intel ha logrado avances significativos en la implementación de la tecnología OCI. A continuación, se presentan algunos detalles técnicos clave:
Circuito integrado fotónico (PIC)
Intel ha desarrollado un chip PIC de 8 Tbps totalmente integrado con las siguientes características:
- Interfaz óptica de multiplexación por división de longitud de onda densa (DWDM)
- 8 pares de fibras x 8 longitudes de onda x 64G, compatible con los estándares CW-WDM MSA
- Rendimiento de 4 Tbps en cada dirección
- Salida de fibra monomodo estándar con baja apertura numérica y ranura en V para alineación pasiva
Circuito integrado fotónico de 8 Tbps de Intel
Este PIC altamente integrado contiene un subsistema óptico completo, que incluye una fuente láser en chip, un modulador de microanillos de alta eficiencia, un fotodetector de germanio y un amplificador óptico de semiconductores. Este alto nivel de integración no solo mejora el rendimiento, sino que también reduce los costos y el consumo de energía.
Integración heterogénea
Intel utiliza tecnología de integración heterogénea a nivel de oblea para integrar materiales III-V (como InP) con dispositivos optoelectrónicos basados en silicio. Este enfoque tiene las siguientes ventajas:
- Rendimiento: minimización de pérdidas de acoplamiento
- Fiabilidad: Fiabilidad del láser < 0.1 FIT
- Capacidad de fabricación: desde el nivel de oblea hasta el de matriz conocida en buen estado (KGD)
- Costo: No requiere un costoso backend láser
- Escalabilidad: gran cantidad de canales, uso compartido de recursos
- Flexibilidad: capacidad de múltiples longitudes de onda, respaldo
Integración heterogénea de láser III-V/SOA
Esta tecnología de integración heterogénea se ha demostrado en más de 8 millones de PIC implementados en proveedores de servicios en la nube a hiperescala, que contienen más de 32 millones de láseres en chip.
Chiplet OCI
El chiplet OCI de Intel es una pila de chips que proporciona E/S ópticas mediante la tecnología fotónica de silicio de Intel y se puede combinar con la xPU. Los principales parámetros del chiplet OCI de primera generación incluyen:
- Interfaz de host: Interfaz SerDes PCIe gen5
- Lado óptico: 8 fibras x 8 longitudes de onda x 32G NRZ, multiplexación por división de longitud de onda densa sobre fibra monomodo
- Ancho de banda total: 4 Tbps (2 Tbps en cada sentido)
- Tasa de error de bits de extremo a extremo: < 1E-12
- Eficiencia energética: ~5 pJ/bit
El concepto de CPU de Intel con OCI en paquete, presentado en OFC 2024, mostró la aplicación práctica de esta tecnología. La demostración demostró que, en términos de enlaces ópticos únicamente, la tecnología OCI proporciona más de tres veces la potencia y cinco veces la mejora de densidad en comparación con los módulos enchufables.
Desarrollo futuro de la tecnología OCI
Intel tiene una hoja de ruta clara para el desarrollo de la tecnología OCI, que incluye las siguientes direcciones clave:
- Ampliación del número de longitudes de onda: de las 8 longitudes de onda actuales a 16 longitudes de onda o incluso más
- Aumento de la velocidad de línea: de 32G NRZ a 64G PAM4, y puede llegar a 128G o más en el futuro.
- Aumento del número de fibras ópticas: Aumentar el número de fibras ópticas manteniendo la miniaturización, aumentando así el ancho de banda total.
- Aprovechamiento de la tecnología de polarización: Aumente aún más la densidad del ancho de banda mediante la multiplexación por polarización.
Estos avances permitirán que la tecnología OCI admita IA y aplicaciones informáticas de alto rendimiento con mayor ancho de banda, menor latencia y mayor eficiencia energética.
Conclusión
La tecnología OCI representa un avance significativo en las interconexiones de infraestructura de IA. Al aprovechar las ventajas de la optoelectrónica integrada, OCI ofrece el alto ancho de banda, la baja latencia y la alta eficiencia energética que se requieren para las aplicaciones de IA y ML de próxima generación. A medida que empresas como Intel sigan invirtiendo y desarrollando esta tecnología, podemos esperar ver surgir sistemas de IA más potentes y eficientes, lo que impulsará el progreso continuo en el campo de la inteligencia artificial.
La tecnología OCI no solo resuelve los desafíos que enfrenta la infraestructura de IA actual, sino que también proporciona una solución escalable para el desarrollo futuro. A través de la innovación tecnológica continua y la colaboración con la industria, OCI tiene el potencial de convertirse en una tecnología clave que respalde la próxima generación de infraestructura de IA y computación de alto rendimiento.
Este artículo presenta en detalle los principios, las aplicaciones y las perspectivas de desarrollo de la tecnología OCI, con la esperanza de brindar a los lectores una comprensión integral de esta tecnología emergente. A medida que la tecnología continúa avanzando, podemos esperar que la OCI desempeñe un papel cada vez más importante en el avance de los campos de la IA y la computación de alto rendimiento.