martes 10 de diciembre de 2024 20:15 pm

NVIDIA ha tropezado con un problema inesperado. La IA empuja mucho más de lo que puede abarcar

La GPU B200 de NVIDIA, diseñada para inteligencia artificial (IA), está generando varios problemas a la compañía. Aunque este chip, presentado en marzo de 2024, se anunciaba como una “bestia” con 208.000 millones de transistores, arquitectura ‘Blackwell’ de última generación y un rendimiento de hasta 20 petaFLOPS en operaciones FP4, no ha estado exento de dificultades. A pesar de sus impresionantes especificaciones, como la capacidad de trabajar con hasta 192 GB de VRAM y un ancho de banda de 8 TB/s, la entrega de las primeras unidades de este chip ha sido más lenta de lo esperado.

En agosto, NVIDIA reconoció que el rendimiento de sus procesos de fabricación no cumplió con las expectativas, lo que llevó a los ingenieros a rediseñar ciertas capas del chip para corregir un defecto que afectaba el rendimiento, retrasando la entrega de las unidades. El CEO de NVIDIA, Jensen Huang, admitió que el fallo fue completamente culpa de la compañía, y aclaró que no existían tensiones con TSMC, el proveedor de semiconductores.

Sin embargo, los problemas no se limitan al proceso de fabricación. Algunos clientes que recibieron servidores equipados con la GPU B200 han reportado problemas de sobrecalentamiento. Estos equipos, cuando se instalan en racks con hasta 72 chips, están experimentando temperaturas demasiado altas. Este tipo de configuración, diseñada para maximizar el espacio y la potencia, requiere una refrigeración adecuada, pero en este caso, los componentes no están siendo suficientemente enfriados.

NVIDIA ha reconocido el problema y está trabajando para solucionarlo. Según informes, la compañía ha solicitado a sus proveedores que modifiquen varias veces el diseño de los racks para mejorar la refrigeración. Un portavoz de NVIDIA explicó que estos ajustes son normales en procesos de ingeniería y que la compañía está colaborando estrechamente con proveedores de servicios en la nube para resolver la situación.

A pesar de que la compañía probablemente solucionará estos problemas, la situación resalta cómo la alta demanda de chips para IA podría estar impulsando a NVIDIA a acelerar su producción, lo que podría haber causado estos inconvenientes. Los fallos de diseño y las complicaciones en el proceso de refrigeración podrían haberse evitado con un enfoque más cuidadoso en los tiempos de desarrollo y pruebas, un recordatorio de que la rapidez en la producción no siempre es la mejor estrategia.

Suscríbete para que recibas a tu Email las Noticias de Hoy calienticas...

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

MÁS NOTICIAS