(Ilustración fotográfica de Omar Marques/SOPA Images/LightRocket vía Getty Images)
Imagen SOPA/LightRocket vía Getty Images
Durante los últimos dos años, el comercio de la IA ha girado en torno a una apuesta dominante: la demanda de GPU necesarias para entrenar modelos más grandes. Ahora, a medida que las empresas comienzan a utilizar las herramientas de IA en el mundo real, los inversores están empezando a mirar más allá del auge de la capacitación hacia la infraestructura necesaria para ejecutar esos sistemas continuamente a escala.
Pone a la GPU, o unidad de procesamiento de gráficos, en el centro de atención.
Estos chips pueden manejar muchos cálculos simultáneamente, lo que los hace esenciales para entrenar grandes modelos de IA. Debido a que las GPU requieren una gran infraestructura física para funcionar a escala, la prisa por asegurar los chips se convierte rápidamente en una lucha por el espacio del centro de datos, el acceso a la energía y una mayor capacidad.
Los inversores respondieron invirtiendo dinero en las empresas que hicieron posible todo esto. Obviamente, esta operación se realiza bien y probablemente tenga espacio para ejecutarse. Sin embargo, a medida que el mercado mira más allá del auge impulsado por el ejercicio, el conjunto de oportunidades puede comenzar a ampliarse.
La razón es que los modelos de IA no crean mucho valor simplemente por existir. Sólo lo hace cuando las personas y las empresas lo utilizan. Lleva la discusión del entrenamiento a la inferencia, que es el proceso de ejecutar un modelo entrenado para responder una pregunta, completar una tarea o aplicar poder. Para los inversores, la diferencia no es académica.
La formación requiere mucha potencia informática cuando se construye el modelo. La inferencia, por otro lado, depende de una capacidad constante a medida que la IA se propaga a través de la búsqueda, el software, el servicio al cliente, la codificación y otros flujos de trabajo. Esto vuelve a traer a la discusión a la CPU, o unidad central de procesamiento, porque ayuda a coordinar las actividades en informática.
Eso marcará un giro famoso. Las CPU han sido durante mucho tiempo el caballo de batalla de la informática antes de que las GPU acaparan la atención durante el auge del ejercicio. Ahora, las CPU pueden volver a desempeñar un papel más importante, no reemplazando a las GPU, sino ayudando a gestionar los flujos de trabajo de IA que siguen ejecutándose en servidores, plataformas en la nube y centros de datos.
El costo de ejecutar un modelo de IA puede hacer que la fase de inferencia sea aún más atractiva para los inversores. Los tokens son pequeños fragmentos de texto o datos que los modelos de IA utilizan para generar respuestas. A medida que el hardware mejora, las empresas parecen producir cada token a un costo menor, lo que permite que chips costosos realicen más trabajo.
Al mismo tiempo, es probable que la demanda de tokens aumente a medida que los agentes de IA se vuelvan más comunes. En lugar de responder una pregunta y detenerse, los agentes pueden realizar varios pasos antes de completar una tarea. Eso podría conducir a un mayor uso en los sistemas de inteligencia artificial.
Esa combinación es importante para los hiperescaladores. Si el costo del token baja a medida que aumenta el uso y el precio se mantiene, las empresas que construyen infraestructura de inteligencia artificial podrían obtener un mayor margen. En ese caso, el gasto en chips, centros de datos y energía comienza a parecer menos una apuesta especulativa y más una base para un negocio operativo más grande.
Esa demanda más amplia ha surgido en la forma en que las empresas de chips describen el mercado de inferencia. Intel y Arm han destacado el papel cada vez mayor de la CPU a medida que aumenta la inferencia. Intel, por ejemplo, ha dicho que la configuración de su servidor de IA podría pasar de unas ocho GPU por cada CPU a unas cuatro GPU por cada CPU a medida que crezca la demanda de inferencia. Si esa predicción resulta precisa, respaldaría un punto más amplio: la inferencia podría impulsar el gasto en IA más allá de las GPU y profundizar en las CPU, servidores y sistemas necesarios para ejecutar modelos a escala.
Los servidores también pueden volverse más importantes. Los hiperescaladores más grandes pueden diseñar sistemas personalizados y trabajar directamente con proveedores globales. Los proveedores más pequeños de nube y neonube creados para la inferencia a menudo necesitan herramientas que puedan implementarse rápidamente y sean fáciles de respaldar. Eso podría ayudar a empresas como Dell y HPE, que venden servidores que soportan cargas de trabajo de IA.
En particular, muchas empresas todavía se están preparando para un uso más amplio de la IA. Necesitan limpiar datos y conectar sistemas antes de poder implementar agentes en sus negocios. El trabajo llevará tiempo, pero también muestra que la demanda de inferencia puede seguir aumentando a medida que más empresas pasen de la preparación al uso real.
En última instancia, este no es un argumento en contra de las compensaciones impulsadas por la GPU. Es un argumento de que la inferencia puede extender la siguiente fase del gasto en IA a un conjunto más amplio de empresas. Si el modelo va a seguir funcionando en flujos de trabajo reales, los inversores deben mirar más allá de las empresas que los capacitan y mirar hacia las empresas que los mantienen en funcionamiento.