- Investigadores de Microsoft determinaron que los LLM actuales no son buenos para trabajos a largo plazo
- Más interacción y menos estructura degradan significativamente el rendimiento del benchmark
- “Python es el único dominio donde la mayoría de los modelos están listos”
Una nueva investigación realizada por un trío de empleados de Microsoft ha descubierto un problema fundamental que podría bloquear la IA agente efectiva: es decir, que la mayoría de los modelos de IA no pueden manejar de manera confiable flujos de trabajo de larga duración.
Para cuantificar sus resultados, los investigadores introdujeron un nuevo punto de referencia Delegate-52 para proporcionar métricas en 52 sectores, incluidos codificación, contabilidad, ciencia y más.
Finalmente, el artículo concluye que los LLM actuales “introducen errores raros pero graves que contaminan silenciosamente los documentos, complicando las interacciones prolongadas”.
La IA todavía no es buena para tareas a largo plazo
La investigación se centra en algunos de los últimos modelos de IA, incluidos Gemini 3.1 Pro, Cloud 4.6 Opus y GPT-5.4. Descubrió que, aunque “corrompen un promedio del 25% del contenido del documento al final de un largo flujo de trabajo”, es más probable que menos modelos hagan las cosas mal.
El punto de referencia Delegate-52 utiliza documentos reales de alrededor de 15.000 tokens de longitud e introduce de 5 a 10 tareas de edición complejas con una “simulación de retransmisión de ida y vuelta” que pide a la IA que realice una transformación y luego la revierta. Esto permite a los investigadores medir la eficacia con la que cada modelo reconstruye documentos en sus formas originales.
En las áreas altamente estructuradas y programáticas donde los modelos funcionaron mejor, los investigadores de Microsoft concluyeron que “Python es el único dominio donde la mayoría de los modelos están listos”. Por el contrario, los flujos de trabajo en lenguaje natural, los campos creativos y los documentos semiestructurados han visto la lucha por los modelos modales.
El documento también revela que cuanto mayor sea la longitud del token, más probabilidades habrá de que un modelo de IA luche.
En lo que se diferenciaba el modelo de frontera no era en su capacidad para eliminar defectos, sino sólo en que eran capaces de retrasarlos. Algunos de los otros modelos probados por los investigadores de Microsoft incluyen las generaciones GPT-5 y GPT-4, Clod Option, el modelo Gemini y uno de cada uno de Mistral, xAI y Moonshot: un total de 19 modelos diferentes de 6 familias.
Gemini 3.1 Pro ocupó el primer lugar con una puntuación de referencia de 52 delegados del 80,9 % después de 20 interacciones; Claude 4.6 Opus (73,1%) y GPT-5.4 (71,5%) completan los tres primeros, y GPT 5 Nano (10,0%) ocupa el último lugar.
En resumen, el documento concluye que los modelos de IA actuales no son lo suficientemente confiables como para confiar en flujos de trabajo autónomos y de larga duración, destaca áreas clave en las que los desarrolladores de modelos deben centrarse en el futuro y ofrece otro punto de referencia para determinar las capacidades del modelo.
a través de Registro
Siga TechRadar en Google News Y Agréganos como fuente preferida Recibe noticias, reseñas y opiniones de nuestros expertos en tu feed.