- La mayoría de las GPU con IA funcionan con un uso sorprendentemente bajo en todos los sistemas de producción
- Las empresas pagan por veinte veces más capacidad de GPU de la que necesitan
- En lugar de mejorar año tras año, el exceso de aprovisionamiento está aumentando rápidamente
Las empresas de toda la industria tecnológica se apresuran a comprar cantidades masivas de infraestructura de inteligencia artificial, pero la mayor parte rara vez hace algo útil.
Un informe de Cast AI basado en miles de clústeres de Kubernetes en AWS, Azure y GCP encontró que la utilización promedio de GPU era solo del 5%.
Muchos equipos implementan sofisticadas herramientas de inteligencia artificial para administrar sus aplicaciones, pero esas mismas herramientas no se utilizan para optimizar la infraestructura subyacente.
El artículo continúa a continuación.
Las cifras están empeorando, no mejorando
Las organizaciones pagan por aproximadamente 20 veces más capacidad de GPU de la que utilizan sus cargas de trabajo en un momento dado.
Las cifras provienen de mediciones directas de clústeres de producción y millones de recursos informáticos antes de que se aplique cualquier optimización.
“Este es el tercer año que publicamos este informe. Las cifras son aún peores”, afirmó Laurent Gill, cofundador y presidente de Cast AI. “El uso de la CPU cayó del 10% al 8%. La memoria cayó del 23% al 20%”.
El informe mide algo llamado sobreaprovisionamiento, que es la brecha entre las cargas de trabajo que realmente se necesitan y lo que los equipos les asignan.
El sobreaprovisionamiento de CPU aumentó del 40% año tras año al 69%, mientras que el sobreaprovisionamiento de memoria ahora alcanza el 79%.
Esto significa que las organizaciones ahorran casi el doble de recursos de CPU y cuatro veces de memoria en comparación con sus cargas de trabajo.
En resumen, las organizaciones están pagando por infraestructura que sus cargas de trabajo ni siquiera exigen, y la tendencia se está acelerando en lugar de mejorar.
La situación se vuelve aún más costosa cuando se comparan directamente los costos de CPU y GPU. Un núcleo de CPU cuesta solo centavos por hora si permanece inactivo, pero una GPU cuesta dólares por hora si permanece inactivo.
Por primera vez desde el lanzamiento de EC2 en 2006, los precios de las GPU están subiendo en lugar de bajar.
En enero de 2026, AWS elevó el precio del bloque de capacidad H200 en un 15%, citando la oferta y la demanda, rompiendo dos décadas de precedentes.
“Con un uso del 5%, las matemáticas no funcionan”, dice el informe. El instinto de acaparamiento tiene sentido porque los plazos de entrega son largos, pero el mismo acaparamiento alimenta un ciclo de escasez que hace subir los precios.
No todos los clusters tienen un desempeño tan deficiente, y una organización utilizó el 49 % en H200 y el 30 % en H100, muy por encima del promedio del 5 %.
La diferencia se reduce a la automatización más que a la suerte o a un mejor hardware. Ya existen herramientas para solucionar este problema, incluida la asignación automática de derechos, el uso compartido de GPU o la división del tiempo y la gestión de espacios.
Sin embargo, la mayoría de los equipos nunca llegan allí porque el aprovisionamiento excesivo parece más seguro que quedarse sin capacidad, pero esa protección tiene un precio elevado.
Los equipos que han cerrado la brecha dejaron de tratar la eficiencia de los recursos como una tarea manual única y comenzaron a tratarla como un proceso continuo y automatizado.
Pero los datos de Cast AI revelan que la mayoría de las empresas parecen dispuestas a pagar grandes tarifas en lugar de cambiar sus prácticas.
Siga TechRadar en Google News Y Agréguenos como fuente preferida Recibe noticias, reseñas y opiniones de nuestros expertos en tu feed.