AMD: Pioneros en el futuro de los mercados de refrigeración líquida con IA

En el cambiante panorama de la infraestructura de IA, AMD se perfila como una empresa innovadora, especialmente en tecnologías de refrigeración líquida. A medida que los centros de datos amplían los límites del rendimiento y la eficiencia, los últimos avances de AMD establecen nuevos estándares. FiberMall, proveedor especializado en productos y soluciones de comunicación óptica, se compromete a ofrecer soluciones rentables para centros de datos globales, entornos de computación en la nube, redes empresariales, redes de acceso y sistemas inalámbricos. Reconocido por su liderazgo en redes de comunicación basadas en IA, FiberMall es el socio ideal si busca soluciones de comunicación óptica de alta calidad y valor. Para más información, puede visitar su sitio web oficial o contactar directamente con su equipo de atención al cliente.

Este blog explora los innovadores desarrollos de AMD en refrigeración líquida para IA, desde los enormes clústeres de GPU hasta la innovadora serie MI350. Tanto si eres un entusiasta de la IA, un operador de centro de datos o un inversor tecnológico, estas perspectivas demuestran por qué AMD se está convirtiendo en la veleta de la próxima era de la computación con IA.

TensorWave implementa el clúster de servidores refrigerados por líquido AMD más grande de Norteamérica

TensorWave, una empresa emergente en infraestructura de IA, anunció recientemente la implementación exitosa del clúster de entrenamiento de GPU AMD más grande de Norteamérica. Impulsado por 8,192 aceleradores de GPU Instinct MI325X, esta configuración marca el primer clúster de refrigeración líquida directa (DLC) a gran escala que utiliza este modelo de GPU.

grupo refrigerado por líquido

El enfoque de TensorWave en el hardware de vanguardia de AMD permite plataformas informáticas eficientes para empresas, instituciones de investigación y desarrolladores. Este colosal clúster no solo establece un récord de escala, sino que también impulsa el desarrollo de la IA. Los analistas del sector señalan que los clústeres basados en AMD ofrecen una rentabilidad superior, con un potencial de ahorro de hasta un 30 % en comparación con... Sistemas DGX de NVIDIA para una potencia de cálculo equivalente.

A medida que más organizaciones adopten las GPU AMD, los costos de infraestructura de IA podrían reducirse aún más, acelerando su adopción en todos los sectores. Para las necesidades de comunicación óptica en estas configuraciones de alto rendimiento, FiberMall ofrece soluciones fiables y optimizadas para IA que garantizan una transmisión de datos fluida.

AMD presenta el chip MI350 con arquitectura de refrigeración líquida completa

AMD presenta el chip MI350 con arquitectura de refrigeración líquida completa, generando entusiasmo en el mercado.

El 12 de junio de 2025, AMD celebró la conferencia "Advancing AI 2025" en San José, California, donde lanzó oficialmente los aceleradores de GPU de la serie Instinct MI350. Estas GPU permiten clústeres de computación a gran escala mediante la colaboración multitarjeta, con nodos individuales que admiten hasta ocho tarjetas en paralelo y ofrecen 2,304 GB de memoria HBM3E. El rendimiento máximo supera los 80.5 PFlops en precisión FP8 y los 161 PFlops en computación de baja precisión FP6/FP4, rivalizando con el GB200 de NVIDIA.

La conectividad entre tarjetas utiliza canales bidireccionales Infinity Fabric, mientras que las conexiones de la CPU aprovechan la tecnología PCIe 128 de 5.0 GB/s para una transferencia de datos sin cuellos de botella. AMD ofrece versiones con refrigeración por aire y por líquido; la refrigeración por aire admite hasta 64 tarjetas, mientras que la refrigeración por líquido escala hasta 128 tarjetas (racks 2U-5U) para diversas necesidades de supercomputación.

MI350
MI355
solución probada a escala de rack

El módulo MI350X consume 1,000 W con refrigeración por aire, mientras que el MI355X de alto rendimiento alcanza los 1,400 W, utilizando principalmente refrigeración líquida. Socios como Supermicro, Pegatron y Gigabyte ya han presentado los servidores de la serie MI350 con refrigeración líquida.

El módulo MI350X consume 1,000W con refrigeración por aire
Aire enfriado
mercado mundial de chips de IA de alta gama

En el mercado global de chips de IA de alta gama, NVIDIA posee más del 80% de la cuota de mercado, pero el resurgimiento del MI350 de AMD, que iguala el rendimiento del GB200, marca un cambio. En el caso de los ecosistemas de refrigeración líquida, el progreso de AMD ofrece alternativas al dominio de NVIDIA, fomentando una competencia más sana. Los principales proveedores de nube, incluidos los principales hiperescaladores y Neo Cloud, integrarán el MI350, seguidos por Dell, HPE y Supermicro. La producción en masa comenzó a principios de este mes, con los primeros servidores de socios e instancias CSP previstos para el tercer trimestre de 3; muchos se muestran favorables. enfriado por líquido variantes.

habilitado para IA

La experiencia de FiberMall en redes ópticas habilitadas para IA complementa estas implementaciones, proporcionando interconexiones rentables para clústeres de IA de gran ancho de banda.

El impacto de AMD en el mercado de refrigeración líquida

El cuasi monopolio de NVIDIA ha vinculado los avances en refrigeración líquida a su ecosistema, incluyendo listas blancas restrictivas que disuaden a los socios. Los clústeres de refrigeración líquida a gran escala de AMD y el lanzamiento del MI350 son una ventaja, ya que podrían suponer un reto para NVIDIA junto con empresas como Huawei. Esto podría impulsar a los proveedores de refrigeración líquida fuera del ámbito de NVIDIA.

AMD afirma que MI350 aumentará la eficiencia energética de la plataforma de IA 38 veces en cinco años, con planes de una mejora adicional de 20 veces para 2030, reduciendo el uso de energía hasta en un 95%.

Análisis en profundidad: chips AMD de la serie MI350, OAM, UBB, servidores refrigerados por líquido e implementaciones en rack

En Advancing AI 2025, AMD presentó la serie Instinct MI350, que incluye MI350X y MI355X, preparada para competir directamente con Blackwell de NVIDIA.

1771-2585c4d9a774b14c07552820192fdd11

Descripción general del Instinct MI350

Ambos modelos cuentan con 288 GB de memoria HBM3E y un ancho de banda de 8 TB/s. El MI355X ofrece un rendimiento máximo: FP64 a 79 TFlops, FP16 a 5 PFlops, FP8 a 10 PFlops y FP6/FP4 a 20 PFlops, con un TDP de hasta 1,400 W. El MI350X se reduce un 8 %, alcanzando un máximo de 18.4 PFlops en FP4 con un TDP de 1,000 W.

Chips de la serie AMD Instinct MI350

El MI350X y el MI355X comparten un diseño de chip, construido sobre una arquitectura de enlace híbrido 3D que utiliza procesos de 3 nm (N3P) y 6 nm de TSMC.

Paquete AMD Instinct MI350
Ángulo del paquete AMD Instinct MI350

Comparación: AMD MI350X vs. NVIDIA B200/GB200

ParámetroAMD MI350XNvidia B200Nvidia GB200
ArquitecturaADNc 4 (enlace híbrido 3D)Blackwell (integración de doble matriz)CPU Blackwell + Grace (Doble B200 + 1 Grace)
Nodo de procesoEmpaquetado híbrido de 3 nm (N3P) + 6 nm (IOD) de TSMCTSMC de 4 nm (N4P)TSMC de 4 nm (N4P)
Transistores185 mil millones208 mil millones416 mil millones (Dual B200)
Configuración de memoria288 GB HBM3E (pila de 12 hilos), ancho de banda de 8 TB/s192 GB HBM3E (pila de 8 hilos), ancho de banda de 7.7 TB/sHBM384E de 3 GB (B200 dual), ancho de banda de 15.4 TB/s
Cálculo FP418.4 PFLOPS (36.8 PFLOPS dispersos)20 PFLOPS (FP4 denso)40 PFLOPS (B200 doble)
Cálculo FP89.2 PFLOPS (18.4 PFLOPS dispersos)10 PFLOPS20 PFLOPS
Cálculo FP32144 TFLOPS75 TFLOPS150 TFLOPS
Cálculo FP6472 TFLOPS (2x B200 Doble Precisión)37 TFLOPS74 TFLOPS
Inteligencia de Infinity Fabric de 153.6 GB/s (8 tarjetas/nodo), Ultra Ethernet a 128 tarjetasNVLink 1.8 de 5.0 TB/s (por tarjeta), 576 tarjetas en NVL72NVLink 1.8 de 5.0 TB/s (por B200), 129.6 TB/s bidireccional en clúster de 72 tarjetas
Consumo de energía1000 W (refrigerado por aire)1000 W (refrigeración líquida)2700 W (B200 doble + Grace)
Ecosistema de softwareROCm 7 con optimización de PyTorch/TensorFlow, compatibilidad con FP4/FP6CUDA 12.5+ con precisión FP4/FP8, inferencia TensorRT-LLMCUDA 12.5+ con optimización de CPU Grace para modelos de billones de parámetros
Rendimiento típicoLlama 3.1 405B Inferencia 30% más rápida que B200; FP8 de 4 tarjetas a 147 PFLOPSEntrenamiento GPT-3 4x H100; Inferencia FP4 de tarjeta única 5x H100NVL72 FP72 de 4 tarjetas a 1.4 EFLOPS; coste de inferencia un 25 % inferior al H100
Precio (2025)$25,000 (aumento reciente del 67%, todavía un 17% por debajo de B200)$30,000$60,000+ (Dual B200 + Grace)
Eficiencia:30 % más de ancho de banda HBM por vatio; 40 % más de tokens por dólar que B20025 % más de FP4 por transistor; 50 % mejor eficiencia de NVLink14.8 PFLOPS/W en refrigeración líquida para FP4
DiferenciaciónInferencia de doble precisión FP6/FP4 única; 288 GB para modelos con parámetros 520BMotor de transformador de segunda generación para FP2; RAS a nivel de chip para mayor confiabilidadMemoria unificada de CPU Grace; Motor de descompresión para la carga de datos

El MI350X cuenta con un 60 % más de memoria que el B200 (192 GB) con el mismo ancho de banda. Es superior en FP64/FP32 por aproximadamente 1x, en FP6 por hasta 1.2x y en baja precisión por aproximadamente 10 %. La inferencia iguala o supera en un 30 %, y el entrenamiento es comparable o incluso un 10 % superior en el ajuste fino de FP8, todo ello con una mayor rentabilidad (40 % más de tokens por dólar).

AMD Instinct MI350 OAM

El factor de forma OAM es compacto, con una PCB gruesa similar al MI325X.

Paquete OAM AMD-Instinct-MI350-800x522

AMD Instinct MI350 UBB

Aquí está el paquete MI350 OAM instalado en una UBB junto con otras siete GPU para un total de ocho.

AMD Instinct MI350 en GPU UBB 8 sin refrigeración 2

AMD Instinct MI350 en GPU UBB 8 sin refrigeración 2

Aquí hay otro ángulo de esto.

AMD Instinct MI350 en GPU UBB 8 sin refrigeración 1

AMD Instinct MI350 en GPU UBB 8 sin refrigeración 1

Aquí se puede ver el UBB completo con ocho GPU instaladas.

GPU AMD Instinct MI350 UBB 8 sin refrigeración

GPU AMD Instinct MI350 UBB 8 sin refrigeración

En muchos sentidos, es similar a la placa AMD Instinct MI325X de la generación anterior, y ese es el punto.

AMD Instinct MI350 en GPU UBB 8 sin refrigeración 3

AMD Instinct MI350 en GPU UBB 8 sin refrigeración 3

En un extremo tenemos los conectores UBB y un disipador para los retimers PCIe.

Retemporizadores PCIe AMD Instinct MI350X UBB

También hay un SMC para la gestión.

SMC AMD Instinct MI350

SMC AMD Instinct MI350

Más allá de la placa en sí, también está la refrigeración.

Refrigeración por aire AMD Instinct MI350X

Aquí se muestra un módulo OAM con un gran disipador de aire. Este disipador es el AMD Instinct MI350X.

Enfriador AMD Instinct MI350X

Enfriador AMD Instinct MI350X

Aquí hay ocho de estos en el UBB. Es similar a lo que vimos arriba, solo que con los ocho disipadores térmicos grandes.

GPU AMD Instinct MI350X UBB 8

GPU AMD Instinct MI350X UBB 8

Aquí hay otra vista de los disipadores de calor desde el lado del SMC y del mango.

Perfil del disipador térmico de la GPU AMD Instinct MI350X UBB 8

Perfil del disipador térmico de la GPU AMD Instinct MI350X UBB 8

Para tener alguna referencia, aquí está el UBB del AMD MI300X:

MI300X 8 GPU OAM UBB 1

AMD MI300X 8 GPU OAM UBB 1

AMD también tiene la versión refrigerada por líquido MI355X que permite un TDP más alto y un mayor rendimiento por tarjeta.

Servidores de IA de la serie AMD MI350

Los socios incluyen Supermicro (4U/2U refrigerado por líquido, hasta ocho MI355X), Compal (7U, hasta ocho) y ASRock (4U, ocho MI355X).

Implementaciones en rack del MI350

Nodos individuales con un máximo de ocho tarjetas (2,304 GB de memoria, hasta 161 PFlops en FP6/FP4). La refrigeración por aire admite hasta 64 tarjetas; la refrigeración líquida, hasta 128. Una configuración de 128 tarjetas ofrece 36 TB de memoria y hasta 2.57 EFlops en FP6/FP4.

Conclusión: La revolución de la refrigeración líquida de AMD

La serie MI350 de AMD y el clúster TensorWave subrayan un cambio fundamental en la refrigeración líquida para IA, desafiando los monopolios e impulsando la eficiencia. Ante el aumento de la demanda de IA, estas innovaciones prometen ahorro de costes y escalabilidad.

FiberMall está listo para respaldar su infraestructura de IA con soluciones de comunicación óptica de primer nivel. Visite nuestro sitio web o contacte con atención al cliente para obtener asesoramiento personalizado.

Deja Tu Comentario

Ir al Inicio