Descubriendo decisiones sobre tecnología conectada en el Smart Computing Center

El sistema NVIDIA DGX H100, diseñado originalmente para integrar 256 GPU NVIDIA H100, enfrentó desafíos en la adopción comercial. Las discusiones de la industria sugieren que el principal obstáculo fue la falta de rentabilidad. El sistema utilizó en gran medida fibras ópticas para las conexiones de GPU, lo que resultó en un aumento de los costos de la lista de materiales (BoM) más allá de lo que era económicamente razonable para la configuración NVL8 estándar.

NVIDIA DGX H100

A pesar de la afirmación de NVIDIA de que el NVL256 ampliado podría ofrecer hasta el doble de rendimiento para el entrenamiento de 2 B MoE, algunos clientes importantes siguen siendo escépticos. Si bien el último NDR InfiniBand se acerca a los 400 Gbit/s y NVLink400 alcanza los 4 GB/s en teoría, el diseño del sistema (que incluye 450 NVSwitches L128 y 1 NVSwitches L36 externos) crea una relación de bloqueo de 2:2. En consecuencia, cada servidor solo puede utilizar la mitad de su ancho de banda para conectarse a otro servidor. NVIDIA confía en la tecnología NVLink SHARP para optimizar la red y lograr un ancho de banda equivalente de todos a todos.

el NVL256 ampliado

Un análisis de la lista de materiales (BoM) H100 NVL256 durante la conferencia Hot Chips 34 reveló que la expansión a NVLink256 aumentó el costo de la lista de materiales en aproximadamente un 30 % por superunidad (SU). A medida que el sistema crece más allá de las 2048 GPU H100, la transición de una topología de red InfiniBand de dos capas a una topología de tres capas reduce ligeramente el porcentaje de costos de InfiniBand.

NVIDIA rediseñó el NVL256 para crear el NVL32, utilizando un backplane de cobre similar a su diseño NVL36/NVL72 Blackwell. AWS acordó comprar 16k GH200 NVL32 para su iniciativa Proyecto Ceiba. Se estima que la prima de costo de este NVL32 rediseñado es un 10% más alta que la lista de materiales (BoM) avanzada estándar HGX H100. A medida que las cargas de trabajo continúan creciendo, NVIDIA afirma que NVL32 será 1.7 veces más rápido para GPT-3 175B y 16k GH200, y 2 veces más rápido para la inferencia LLM de 500B en comparación con 16k H100. Estas atractivas relaciones rendimiento-coste están impulsando a más clientes a adoptar el nuevo diseño de NVIDIA.

GH200 NVL32

Respecto al esperado lanzamiento del GB200 NVL72, NVIDIA ha aprendido del fracaso del H100 NVL256. Ahora utilizan cableado de cobre, denominado “columna vertebral NVLink”, para abordar las preocupaciones de costos. Se espera que este cambio de diseño reduzca el costo de los bienes (COG) y allane el camino para el éxito del GB200 NVL72. Al adoptar un diseño de cobre, se estima que NVL72 ahorra aproximadamente 6 veces los costos por bastidor GB200 NVL72, lo que resulta en ahorros de energía de alrededor de 20 kW por bastidor GB200 NVL72 y 10 kW por bastidor GB200 NVL32. A diferencia del H100 NVL256, el GB200 NVL72 no utilizará ningún conmutador NVLink dentro de los nodos informáticos; en su lugar, empleará una topología de red optimizada para rieles planos. Por cada 72 GPU GB200, habrá 18 conmutadores NVLink. Dado que todas las conexiones permanecen dentro del mismo rack, la conexión más lejana abarca sólo 19U (0.83 metros), factible con cables de cobre activos.

GPU 72

Según los informes de Semianalysis, NVIDIA afirma que su diseño puede admitir la conexión de hasta 576 GPU GB200 dentro de un único dominio NVLink. Lograr esto puede implicar agregar capas de conmutador NVLink adicionales. Se espera que NVIDIA mantenga una relación de bloqueo de 2:1, utilizando 144 conmutadores NVLink L1 y 36 conmutadores NVLink L2 dentro de las SU GB NVL576. Alternativamente, pueden adoptar una relación de bloqueo más agresiva de 1:4, utilizando sólo 18 conmutadores NVLink L2. Continuarán utilizando transceptores OSFP ópticos para ampliar las conexiones desde los conmutadores NVLink L1 del bastidor a los conmutadores NVLink L2.

GB200 NVL576

Ha habido rumores de que NVL36 y NVL72 representan más del 20% de las entregas de NVIDIA Blackwell. Sin embargo, la pregunta sigue siendo si los grandes clientes elegirán el NVL576, más caro, ya que la expansión al NVL576 requiere costos adicionales de componentes ópticos. NVIDIA parece haber aprendido de esto y reconoce que los costes de interconexión del cable de cobre son significativamente menores que los de la fibra óptica.

Según el experto en la industria de semiconductores Doug O'Langhlin, las interconexiones de cobre dominarán a nivel de escala de rack, maximizando el valor del cobre antes de pasar a la óptica. La nueva Ley de Moore se centra en empaquetar la mayor potencia informática en un rack. O'Langhlin cree que el dominio NVLink sobre cobre pasivo es el nuevo punto de referencia para el éxito, lo que convierte a los racks GB200 NVL72 en una opción sensata frente a los B200.

usa cobre donde puedas

Desde una perspectiva industrial, las interconexiones de cobre tienen claras ventajas en escenarios de comunicación de corta distancia. Desempeñan un papel crucial en las interconexiones de centros de datos de alta velocidad, ofreciendo beneficios en eficiencia térmica, bajo consumo de energía y rentabilidad. A medida que las tasas de SerDes progresan de 56G y 112G a 224G, se espera que las tasas de puerto único alcancen 1.6T basadas en 8 canales, lo que genera reducciones significativas de costos en la transmisión de alta velocidad. Para abordar las pérdidas de transmisión de cable de cobre de alta velocidad, AEC y ACC mejoran la distancia de la señal a través de amplificadores de señal integrados, mientras que los procesos de producción de módulos de cable de cobre continúan evolucionando.

interconexión de cobre en el centro de datos

Según Light Counting, se prevé que el tamaño del mercado global de cables pasivos de conexión directa (DAC) y cables ópticos activos (AOC) crezca a tasas de crecimiento anual compuestas del 25% y el 45%, respectivamente.

crecer a tasas de crecimiento anual compuestas

Entre 2010 y 2022, la capacidad de ancho de banda del chip de conmutación aumentó de 640 Gbps a 51.2 Tbps, lo que resultó en un aumento de 80 veces en el consumo general de energía del sistema. En particular, el consumo de energía de los componentes ópticos aumentó en un factor de 26.

Cambiar el consumo

Las interconexiones de cables de cobre, debido a su falta de conversión optoelectrónica, presentan un bajo consumo de energía. Los cables de conexión directa (DAC) de cobre actuales consumen menos de 0.1 W, lo que los hace insignificantes, mientras que los cables activos (AEC) pueden mantener la energía dentro de los 5 W, lo que contribuye a reducir el consumo general de energía en los grupos informáticos.

máximo poder
cost

Dentro de la distancia alcanzable de transmisión de señales a alta velocidad de los cables de cobre, su costo es menor en comparación con las conexiones de fibra óptica. Además, los módulos de cable de cobre ofrecen transmisión de señales eléctricas con latencia extremadamente baja en distancias cortas y mantienen una alta confiabilidad, evitando los riesgos de pérdida de señal o interferencias que las fibras ópticas pueden encontrar en ciertos entornos. Además, las características físicas de los cables de cobre los hacen más fáciles de manipular, mantener y altamente compatibles sin requerir equipos de conversión adicionales.

Deja Tu Comentario

Ir al Inicio