Según el Economic Daily News de Taiwán, NVIDIA planea lanzar la línea de productos de servidores de inteligencia artificial GB300 de próxima generación en la conferencia GTC en marzo del próximo año.
Recientemente, Foxconn y Quanta han comenzado de manera proactiva la investigación y el desarrollo del GB300 para aprovechar la oportunidad de manera temprana. Se entiende que NVIDIA ha determinado preliminarmente la configuración del pedido del GB300, y Foxconn sigue siendo su principal proveedor. Se espera que el GB300 llegue al mercado en la primera mitad del próximo año, por delante de sus competidores globales. Fuentes de la industria revelan que Quanta e Inventec también son socios clave para los servidores de IA GB300 de NVIDIA. Quanta ocupa el segundo lugar, después de Foxconn, en participación de pedidos, mientras que Inventec ha aumentado significativamente su participación de pedidos en comparación con el GB200, lo que los posiciona para capitalizar las oportunidades de próxima generación del GB300.
Procesador gráfico: B200 → B300
En octubre de este año, NVIDIA rebautizó todos los productos Blackwell Ultra como la serie B300, que utiliza tecnología CoWoS-L, lo que impulsó la demanda de soluciones de empaquetado avanzadas.
Mejora del rendimiento
La nueva GPU B300 ofrece un aumento de 1.5 veces en el rendimiento de cálculo de punto flotante (FP4) respecto de la B200 anterior.
Potencia térmica TDP
El consumo de energía de la GPU B300 puede alcanzar hasta 1400 W, en comparación con los aproximadamente 1000 W de la B200, lo que marca un salto significativo. Para mantener esta potencia sustancial, tanto la fuente de alimentación como los sistemas de refrigeración deben estar a la altura.
Sistema de refrigeración líquida mejorado
Placa de refrigeración líquida + conector de cambio rápido UQD mejorado: el consumo de energía de 1400 W hace que la refrigeración por aire sea insuficiente. Por lo tanto, el GB300 utiliza placas de refrigeración líquida y actualiza los conectores de cambio rápido UQD para mejorar la eficiencia y la confiabilidad.
Nuevo diseño de gabinete: la disposición del gabinete, el diseño de las tuberías y los canales de enfriamiento se han rediseñado para acomodar una mayor cantidad de placas de enfriamiento de agua, sistemas de enfriamiento de líquido y componentes de conexión rápida UQD.
Actualización significativa de la memoria HBM3e
192 GB → 288 GB: ¿Recuerdas la memoria HBM192 de 3 GB de la era GB200? ¡Ahora, cada GPU B300 cuenta con la asombrosa cantidad de 288 GB de HBM3e! Este aumento sustancial es esencialmente una luz verde para un entrenamiento de modelos extenso, lo que lo hace muy atractivo para modelos grandes con cientos de miles de millones de parámetros.
Apilamiento de 8 capas → 12 capas: en comparación con la pila de 8 capas anterior, la nueva configuración utiliza una pila de 12 capas, lo que no solo aumenta la capacidad, sino que también mejora significativamente el ancho de banda. Este alto paralelismo permite que los datos fluyan sin problemas y sin cuellos de botella.
Red y transmisión
Tarjeta de red: ConnectX 7 → ConnectX 8: El GB300 se ha actualizado de la tarjeta de red ConnectX 7 a la ConnectX 8. Esta actualización aporta mejoras integrales en ancho de banda, latencia y confiabilidad, lo que garantiza una transferencia de datos sin problemas en clústeres de gran escala.
Módulos ópticos: 800G → 1.6T: La actualización de 800G a 1.6T es comparable a pasar de la segunda a la cuarta marcha. Para escenarios que involucran interacciones masivas de datos, como HPC y entrenamiento de IA, este aumento de ancho de banda es un salvavidas.
Gestión de energía y confiabilidad
Nuevas incorporaciones: bandeja de condensadores estandarizada y BBU: el gabinete GB300 NVL72 ahora cuenta con una bandeja de condensadores estandarizada con un sistema de unidad de respaldo de batería (BBU) opcional. Cada módulo BBU cuesta alrededor de $300 y el sistema GB300 completo requiere alrededor de 5 módulos BBU, lo que suma un total aproximado de $1500. Si bien esto puede parecer costoso, es una inversión crucial para evitar cortes de energía repentinos en entornos de IA de alta carga y alta potencia.
Alta demanda de supercondensadores: cada rack NVL72 requiere más de 300 supercondensadores para manejar picos de corriente instantáneos y proteger el sistema. Con un precio de entre 20 y 25 dólares cada uno, esto representa un gasto significativo, pero es necesario para el GB300, que consume mucha energía.
La gran revolución de la memoria
LPCAMM llega al mundo de los servidores: por primera vez, NVIDIA ha introducido el estándar LPCAMM (Low Power CAMM) en las placas base para servidores. Este “pequeño dispositivo”, que antes se utilizaba en portátiles ligeros, ahora se ocupa de las altas exigencias de los servidores, lo que demuestra sus excepcionales capacidades. La introducción de LPCAMM en los servidores sugiere una tendencia a hacerlos más “delgados y elegantes”, lo que sugiere un posible cambio hacia un enfoque más moderno en el diseño de servidores.
¿Reemplazo de las DIMM tradicionales?: LPCAMM ofrece una solución más compacta, de bajo consumo y fácil mantenimiento. Podría reemplazar por completo a las RDIMM y LRDIMM tradicionales en el futuro, lo que podría causar una importante transformación en el mercado de memorias para servidores. Si LPCAMM reemplaza a las DIMM tradicionales, podría anunciar una importante transformación en el panorama de la memoria para servidores.
La NVIDIA GB300 “Blackwell Ultra” está preparada para elevar significativamente el límite de potencia de procesamiento de IA. Las mejoras en los núcleos de GPU, la compatibilidad masiva con la memoria HBM3e y las actualizaciones integrales en la gestión de la refrigeración y la energía indican que los modelos grandes y la computación a gran escala son las tendencias imparables del futuro. Además, con la inclusión de LPCAMM y un ancho de banda de red de 1.6 T, se mejorará aún más la eficiencia de los centros de datos en la nube y los centros de supercomputación.
Está claro que la “carrera armamentista” por la potencia computacional de la IA recién está comenzando. Quienes tomen la delantera en los ecosistemas de hardware y software pueden muy bien dominar la próxima ola de la revolución de la IA.