En los últimos dos años, gran parte de los rumores en torno a la IA se han centrado en la carrera de modelos: qué modelo es más grande, más rápido o obtiene mejores resultados en los puntos de referencia.
Pero a medida que la IA pasa de los pilotos al núcleo de los productos y flujos de trabajo, está resurgiendo un patrón familiar de los primeros días de la nube: los sistemas son más programables que nunca, pero también son mucho más difíciles de ejecutar.
CTO de campo, Asia-Pacífico y Japón, Datadog.
Y eso significa que ahora sabemos hacia dónde se está desplazando la competencia más importante en IA: de quién tiene el “mejor” modelo a quién puede operar la IA de manera confiable, eficiente y segura a escala.
La IA ahora está alcanzando límites operativos, no límites de modelo
Al observar la telemetría del mundo real desde miles de sistemas de producción, comienza a surgir una imagen más clara. Aproximadamente 1 de cada 20 solicitudes de IA fallan a medida que las aplicaciones alcanzan escala, y la mayoría de esas fallas ahora se deben a límites de capacidad como límites de velocidad, cuotas y límites de concurrencia, en lugar de errores de modelo o precisión deficiente. Es una historia muy diferente de las listas de referencia que dominan la mayoría de los equipos.
La cantidad de datos enviados por solicitud también está aumentando. En muchos centros de producción, los usuarios medios duplicaron con creces su uso de tokens, mientras que los usuarios habituales vieron aumentar los volúmenes varias veces. Este crecimiento es un impulsor directo de casos de uso de IA más ambiciosos y presiones de costos e infraestructura de TI.
El impacto se ve más claramente en lo que muchos equipos ahora describen como expansión de GPU: flotas fragmentadas distribuidas en la nube y en clústeres locales. Algunas GPU están inactivas mientras que otras están constantemente saturadas, y existe poca correlación entre dónde se gastan las horas de GPU y dónde generan valor comercial.
El resultado es familiar para cualquiera que haya vivido las primeras etapas de la computación en la nube: costos desbocados, rendimiento impredecible y crisis de capacidad que aparecen de la nada.
¿Cómo le va en APAC?
En toda Asia-Pacífico, y especialmente en la ASEAN, actualmente estamos viendo presiones estructurales: la adopción de la IA se está acelerando, pero la madurez operativa es desigual.
Singapur está más adelantado en términos de gobernanza y monitoreo, impulsado en parte por las expectativas regulatorias y un panorama de nube más maduro. Mientras tanto, mercados como Indonesia, Malasia y Tailandia están avanzando muy rápidamente en su implementación, y a menudo introducen la IA en los servicios de cara al cliente mientras las prácticas operativas se ponen al día.
A medida que las organizaciones en estos mercados desarrollan arquitecturas multimodelo y basadas en agentes, se topan con problemas de confiabilidad, visibilidad limitada y funcionalidad de modelo inconsistente. El uso de tokens está creciendo rápidamente, pero las prácticas de optimización, como el almacenamiento en caché rápido y la ingeniería de contexto, se utilizan menos.
Esta brecha entre la preparación y el despliegue ya está creando una deuda operativa y de gastos que será más difícil de eliminar más adelante.
Cuatro disciplinas operativas que necesitan los equipos de IA
Con la evolución de la IA análoga a los primeros días de la nube, la buena noticia es que podemos predecir, al menos en cierta medida, hacia dónde van las cosas.
Ahora, la pregunta que los líderes de IA deberían hacerse es: ¿Qué disciplinas distinguen a los equipos que mejor lidiarán con esta complejidad?
En mi opinión, los equipos que trabajan con IA deben adoptar cuatro para lograr un éxito sostenible:
1. Establecer visibilidad y atribución
No puedes gestionar lo que no puedes ver y la IA no es una excepción.
Los equipos necesitan ver cómo las horas de GPU y los tokens se asignan a aplicaciones, equipos y casos de uso específicos, para poder correlacionar ese uso con la latencia, la tasa de error y el impacto en el usuario.
Esto hace posible separar las cargas de trabajo críticas para el negocio del ruido de fondo y proporciona claridad sobre qué servicios generan costos o poder adquisitivo.
Cuando el uso es visible y se caracteriza en una sola vista, las decisiones sobre dónde optimizar, conservar la capacidad o volver a marcar se vuelven mucho menos emocionales y mucho más basadas en datos.
2. Hacer cumplir los controles y las barandillas
Sin la barandilla, los sistemas de IA consumirán tanta energía como les des.
Los controles prácticos incluyen límites de tarifas y límites de presupuesto, junto con la protección del comportamiento de los agentes para evitar que repeticiones ilimitadas, bucles y flujos de trabajo mal vinculados agoten los recursos compartidos.
Estos controles están destinados a hacer que el uso sea predecible y garantizar que una prueba fuera de control no pueda afectar los servicios de producción principales.
Sin esta disciplina, los programas de IA alcanzan límites económicos mucho antes de que los programas técnicos los alcancen. Se termina con prototipos impresionantes, pero con economías unitarias insostenibles.
3. Optimice el uso de la GPU antes de ampliar la entrega
La mayoría de los equipos recurren a más GPU cuando realmente tienen un problema de uso.
Las instancias de GPU ya representan una parte importante de los costos de computación, y esa proporción solo crece a medida que las organizaciones profundizan en la capacitación y la inferencia a escala.
Pero las GPU inactivas o no utilizadas crean una sensación de escasez a pesar del espacio disponible. En cambio, muchos equipos pueden ver cómo aumenta su factura general de GPU, pero no pueden ver qué cargas de trabajo están generando costos ni identificar los pasos necesarios para mejorar la eficiencia.
Lo que aprendimos en los primeros días de la nube es que, en este caso, el sobreaprovisionamiento se convierte en el valor predeterminado más seguro, pero luego el costo se dispara a pesar de que la capacidad está estancada en la flota.
Tratar la infraestructura de GPU como un sistema de primera clase significa realizar un seguimiento del uso para que los equipos puedan distinguir la escasez de capacidad real de la mala asignación o la fragmentación. Luego, pueden decidir si liberar capacidad o agregar más oferta.
4. Diseño para la eficiencia a nivel de aplicación
Los altos costos de la IA y las tasas de falla provienen de cómo se crean las aplicaciones, no de los modelos.
Los patrones ineficientes, el enrutamiento deficiente entre proveedores y los avisos no optimizados aumentan el uso de tokens y aumentan el riesgo de tiempos de espera, errores y comportamientos inconsistentes.
Pero con una visibilidad adecuada de las indicaciones, los agentes y el equipo de producción, los equipos pueden ver cómo las solicitudes fluyen realmente a través del sistema y ajustar la calidad, la latencia y los costos de manera controlada.
Transforma la capa de aplicación de una caja negra a un lugar donde las opciones de ingeniería eficientes son deliberadas, mensurables y conectadas con los resultados comerciales.
Qué deberían hacer los líderes en la nueva carrera de la IA
Los primeros días de la nube nos enseñaron que la programabilidad sin disciplina operativa puede ser tanto una desventaja como un beneficio. La IA se encuentra ahora en un punto de inflexión similar: los ganadores no sólo serán aquellos con acceso a los modelos más potentes, sino también aquellos que traten la IA como una capacidad de ingeniería y operaciones a largo plazo.
Una prueba útil para cualquier organización es que puede explicar adónde se destina el gasto en IA, cómo se comportan los agentes en producción y qué cargas de trabajo protegerá primero si la capacidad se reduce repentinamente.
Si la respuesta honesta es “Aún no lo sé”, entonces el siguiente paso en el viaje de la IA es claro: dejar de perseguir el próximo lanzamiento del modelo y centrarse en construir la base operativa que le ayudará a escalar la IA de forma segura y sostenible.
Hemos revisado y clasificado los mejores servicios empresariales de almacenamiento en la nube..
Este artículo fue producido en parte Perspectiva profesional de TechRadarNuestro canal para mostrar las mejores y más brillantes mentes de la industria tecnológica actual.
Las opiniones expresadas aquí son las del autor y no necesariamente las de TechRadarPro o Future plc. Si está interesado en contribuir, obtenga más información aquí: