NVIDIA lanzó Blackwell B200 en marzo de este año, conocido como el chip de IA más potente del mundo. ¿En qué se diferencia del A100, A800, H100 y H800 anteriores?

Blackwell B200
Evolución de la arquitectura de la GPU NVIDIA
Primero revisemos el historial de desarrollo de la potencia informática de las tarjetas aceleradoras de IA de NVIDIA:
La primera generación de tarjetas aceleradoras de IA se llama Volta, que es la primera arquitectura de núcleo tensorial de NVIDIA diseñada específicamente para la informática de IA.
La arquitectura de computación tensorial de segunda generación se llama Turing, que representa la tarjeta gráfica T4.
La arquitectura de computación tensorial de tercera generación Ampere Finalmente ha llegado a las tarjetas gráficas de la serie A100 con las que estamos más familiarizados.
Con el apoyo de las actualizaciones del proceso del chip, el SM de una sola tarjeta se ha duplicado a 108. El número de núcleos en el SM es el mismo que el del V100, pero mediante la actualización del circuito de la unidad de computación, el núcleo puede completar 256 flotantes. -multiplicaciones y acumulaciones de puntos en cada ciclo, que es el doble que la arquitectura antigua. Se agregó el modo informático de punto flotante de 8 bits (FP8) para satisfacer mejor las necesidades del aprendizaje profundo en ese momento. Un núcleo de punto flotante de 16 bits se puede calcular como dos núcleos de punto flotante de 8 bits, duplicando la potencia informática. La frecuencia principal ha bajado ligeramente hasta los 1.41GHz. Por lo tanto, al final, la potencia informática de la tarjeta gráfica A100 alcanzó casi 5 veces la de la V100, que es 108*8*256*1.41GHz*2 =624 TFLOPS (FP8).

Arquitectura amperio
La arquitectura Hopper de cuarta generación. es la tarjeta gráfica de la serie H100 que NVIDIA acaba de lanzar el año pasado, ha sido adoptada por OpenAI para el entrenamiento de modelos de lenguaje a gran escala y ha sido prohibida debido a problemas de potencia informática.
La cantidad de SM (132) de esta tarjeta gráfica no ha aumentado significativamente en comparación con la generación anterior, pero debido a la nueva arquitectura Tensor Core y el diseño de memoria asíncrona, la cantidad de multiplicaciones y acumulaciones de FP16 que se pueden completar con un solo núcleo SM. en un ciclo se ha duplicado a 512 veces. La frecuencia principal se aumentó ligeramente a 1.83 GHz y la potencia informática de una sola tarjeta finalmente alcanzó un asombroso Tera FLOPS (FP1978) de 8, que fue la primera vez que ingresó al campo PFLOPS (1.97 Peta FLOPS).

Arquitectura de tolva
¿Qué tipo de progreso ha la arquitectura de quinta generación Blackwell hecho en esta escalera de potencia informática? Según datos públicos, si se adopta la nueva unidad de datos FP4, GB200 podrá alcanzar una potencia informática de 20 Peta FLOPS en tareas de razonamiento. Si se restablece al 8PM, También debería tener unos sorprendentes 10 PFLOPS, que es aproximadamente 5 veces la mejora con respecto al H100.
Los datos públicos muestran que la frecuencia principal del procesador de Blackwell es 2.1GHz. Suponiendo que la arquitectura no se actualice significativamente, Blackwell tendrá 600 SM, casi cuatro veces más que el H100. Blackwell tiene dos matrices, por lo que la cantidad de SM en una tarjeta gráfica de una sola matriz es el doble que la de la H100.
Se puede concluir que con cada generación de actualización de la arquitectura, la potencia informática de una sola GPU ha aumentado varias veces. A continuación, enumeramos el gráfico de progreso de la potencia informática desde la arquitectura Volta hasta el presente para su referencia:

Gráfico de progreso de potencia informática
A100 frente a A800, H100 frente a H800
¿Por qué necesitamos A800 cuando tenemos A100? Primero hablemos del trasfondo.
En octubre de 2022, Estados Unidos introdujo nuevas regulaciones para restringir las exportaciones de semiconductores a China, incluidas restricciones a la exportación de chips informáticos de alto rendimiento a China continental. Métricas de rendimiento de A100 de NVIDIA Los chips se utilizan como estándar limitante, es decir, se regulan los chips informáticos de alto rendimiento que cumplen las dos condiciones siguientes:
(1) La velocidad de transmisión del ancho de banda de E/S del chip es mayor o igual a 600 G bytes/s;
(2) La suma de la longitud de bits de cada operación de la "unidad de procesamiento digital, unidad de computación sin procesar" multiplicada por la potencia de computación calculada por TOPS es mayor o igual a 4800TOPS.
Las condiciones hacen imposible exportar chips de IA de las series NVIDIA A100/H100 y AMD MI200/300 a China.

Comparación de GPU Nvidia y AMD
Para cumplir con las restricciones de EE. UU. y satisfacer las necesidades de los clientes chinos, NVIDIA lanzó el A800, un reemplazo del A100. A juzgar por los parámetros oficiales, el A800 reduce principalmente la velocidad de transmisión de NVLink de los 600 GB/s del A100 a los 400 GB/s, con otros parámetros básicamente iguales a los del A100.
En 2023, NVIDIA lanzó la GPU H100 de nueva generación basada en un proceso de 4 nm, con 80 mil millones de transistores y 18,432 núcleos. Del mismo modo, NVIDIA también ha lanzado una versión especial del H800 para el mercado chino.

Comparación de chips
De hecho, A800 ha realizado ajustes en el ancho de banda de interconexión, es decir, la cadena N-dimensional y la parte de enlace, desde 600 G/s de A100 a 400 G/s. Sin embargo, en otros aspectos, como la doble precisión, la precisión simple y la semiprecisión, no hay cambios en la potencia informática de la IA.
Relativamente hablando, el H800 ha realizado ajustes importantes. No solo hizo ajustes en términos de enlaces, manteniendo 8 NVlinks y 400G El ancho de banda de interconexión bidireccional también redujo la computación de doble precisión a cero. Esto es crítico para el campo de HPC porque la potencia de computación de doble precisión de FP64 se reduce directamente a uno, lo que significa que casi no se puede usar.
A continuación, echemos un vistazo a qué empresas se verán muy afectadas por los ajustes.
Campo de batalla de modelos grandes: después de ajustar el A800, se redujo la eficiencia del entrenamiento de modelos grandes. A800 SXMM redujo principalmente la eficiencia de transmisión de datos entre tarjetas GPU y el ancho de banda se redujo en un 33%. Tomando GPT-3 como ejemplo, su escala alcanza los 175 mil millones y requiere múltiples GPU para el entrenamiento combinado. Si el ancho de banda es insuficiente, el rendimiento caerá aproximadamente un 40%. Teniendo en cuenta la rentabilidad de A 800 y H 800, los usuarios chinos todavía prefieren A 800. Dado que los A800 y H800 ajustados tienen una eficiencia de entrenamiento menor y necesitan intercambiar algunos datos durante el proceso de entrenamiento entre tarjetas, su tasa de transmisión reducida conduce a una disminución en su eficiencia.
HPC: A800 y A100 tienen la misma potencia informática de doble precisión, por lo que no se ven afectados en el campo de la informática científica de alto rendimiento. Sin embargo, lo molesto es que el H800 reduce directamente la potencia informática de precisión dual a 1 TFLOPS, por lo que no se permite su uso. Esto tiene un gran impacto en el campo de la supercomputación.
Por tanto, el impacto es obvio. En los campos de AIGC y HPC, algunas empresas chinas pueden quedar rezagadas ante las empresas extranjeras. Esto es previsible, por lo que en algunos casos, si queremos que la potencia de cálculo alcance un determinado rendimiento, la inversión puede ser mayor. Además, sólo podemos pedir prestada una empresa fantasma en el extranjero y crear una sucursal para encargarnos de la formación de grandes modelos en el extranjero. Sólo necesitamos utilizar los resultados del entrenamiento en China. Sin embargo, esto es sólo una solución temporal, especialmente cuando se enfrenta el riesgo de que los datos abandonen el país.
Resum
Como todos sabemos, Estados Unidos está imponiendo restricciones cada vez más estrictas a los chips chinos, incluidas las GPU. En 2022, Estados Unidos prohibió los chips GPU de alto rendimiento, incluidos A100, H100, etc., y en 2023 prohibió A800, H800, L40, L40S e incluso la tarjeta gráfica de escritorio RTX 4090.
Por lo tanto, las empresas de tecnología chinas también están ajustando activamente sus estrategias industriales para prepararse para reducir el uso de chips Nvidia en el futuro, evitando así el enorme costo de ajustar constantemente la tecnología para adaptarse a nuevos chips. Los proveedores de nube como Alibaba y Tencent han trasladado algunos pedidos de semiconductores avanzados a empresas locales como Huawei y han dependido más de sus chips desarrollados internamente. Empresas como Baidu y ByteDance también han tomado medidas similares. Obviamente, las empresas chinas han optado por explorar el camino a seguir mediante un enfoque triple de " NVIDIA + chips domésticos + de desarrollo propio ".
Productos relacionados:
-
NVIDIA MMA4Z00-NS400 Compatible 400G OSFP SR4 Flat Top PAM4 850nm 30m en OM3/50m en OM4 MTP/MPO-12 Módulo transceptor óptico FEC multimodo $650.00
-
NVIDIA MMA4Z00-NS-FLT Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $850.00
-
NVIDIA MMA4Z00-NS Compatible 800 Gb/s Twin-port OSFP 2x400G SR8 PAM4 850nm 100m DOM Dual MPO-12 MMF Módulo transceptor óptico $750.00
-
NVIDIA MMS4X00-NM Compatible 800 Gb/s Puerto doble OSFP 2x400G PAM4 1310nm 500m DOM Dual MTP/MPO-12 Módulo transceptor óptico SMF $1100.00
-
NVIDIA MMS4X00-NM-FLT Compatible 800G Twin-port OSFP 2x400G Flat Top PAM4 1310nm 500m DOM Dual MTP/MPO-12 SMF Módulo transceptor óptico $1200.00
-
NVIDIA MMS4X00-NS400 Compatible 400G OSFP DR4 Flat Top PAM4 1310nm MTP/MPO-12 500m SMF FEC Módulo transceptor óptico $800.00
-
Mellanox MMA1T00-HS Compatible 200G Infiniband HDR QSFP56 SR4 850nm 100m MPO-12 APC OM3/OM4 FEC PAM4 módulo transceptor óptico $200.00
-
Compatible con NVIDIA MFP7E10-N010 10 m (33 pies) 8 fibras Baja pérdida de inserción Hembra a hembra Cable troncal MPO Polaridad B APC a APC LSZH multimodo OM3 50/125 $47.00
-
NVIDIA MCP7Y00-N003-FLT Compatible 3 m (10 pies) 800G OSFP de doble puerto a 2x400G OSFP de parte superior plana InfiniBand NDR Breakout DAC $275.00
-
Cable de cobre de conexión directa, 7m (70 pies), 002G, doble puerto, 2x7G OSFP a 400x2G QSFP200, Compatible con NVIDIA MCP4Y100-H56 $155.00
-
Cable de cobre activo InfiniBand NDR de 4 m (80 pies) compatible con NVIDIA MCA003J3-N10-FTF de doble puerto 800x2G OSFP a 400x2G OSFP, parte superior plana en un extremo y parte superior con aletas en el otro $600.00
-
NVIDIA MCP7Y10-N002 Compatible con 2m (7 pies) 800G InfiniBand NDR OSFP de doble puerto a DAC de ruptura 2x400G QSFP112 $200.00