‘Los LLM actuales introducen errores importantes al editar documentos de trabajo’: los científicos de Microsoft encuentran que la mayoría de los modelos de IA tienen dificultades con tareas a largo plazo, por lo que tal vez no confíen completamente en ellos todavía

Investigadores de Microsoft determinaron que los LLM actuales no son buenos para trabajos a largo plazo
Más interacción y menos estructura degradan significativamente el rendimiento del benchmark
“Python es el único dominio donde la mayoría de los modelos están listos”

Una nueva investigación realizada por un trío de empleados de Microsoft ha descubierto un problema fundamental que podría bloquear la IA agente efectiva: es decir, que la mayoría de los modelos de IA no pueden manejar de manera confiable flujos de trabajo de larga duración.

Para cuantificar sus resultados, los investigadores introdujeron un nuevo punto de referencia Delegate-52 para proporcionar métricas en 52 sectores, incluidos codificación, contabilidad, ciencia y más.

Finalmente, el artículo concluye que los LLM actuales “introducen errores raros pero graves que contaminan silenciosamente los documentos, complicando las interacciones prolongadas”.

Último vídeo de

La IA todavía no es buena para tareas a largo plazo

La investigación se centra en algunos de los últimos modelos de IA, incluidos Gemini 3.1 Pro, Cloud 4.6 Opus y GPT-5.4. Descubrió que, aunque “corrompen un promedio del 25% del contenido del documento al final de un largo flujo de trabajo”, es más probable que menos modelos hagan las cosas mal.

El punto de referencia Delegate-52 utiliza documentos reales de alrededor de 15.000 tokens de longitud e introduce de 5 a 10 tareas de edición complejas con una “simulación de retransmisión de ida y vuelta” que pide a la IA que realice una transformación y luego la revierta. Esto permite a los investigadores medir la eficacia con la que cada modelo reconstruye documentos en sus formas originales.

En las áreas altamente estructuradas y programáticas donde los modelos funcionaron mejor, los investigadores de Microsoft concluyeron que “Python es el único dominio donde la mayoría de los modelos están listos”. Por el contrario, los flujos de trabajo en lenguaje natural, los campos creativos y los documentos semiestructurados han visto la lucha por los modelos modales.

El documento también revela que cuanto mayor sea la longitud del token, más probabilidades habrá de que un modelo de IA luche.

En lo que se diferenciaba el modelo de frontera no era en su capacidad para eliminar defectos, sino sólo en que eran capaces de retrasarlos. Algunos de los otros modelos probados por los investigadores de Microsoft incluyen las generaciones GPT-5 y GPT-4, Clod Option, el modelo Gemini y uno de cada uno de Mistral, xAI y Moonshot: un total de 19 modelos diferentes de 6 familias.

Gemini 3.1 Pro ocupó el primer lugar con una puntuación de referencia de 52 delegados del 80,9 % después de 20 interacciones; Claude 4.6 Opus (73,1%) y GPT-5.4 (71,5%) completan los tres primeros, y GPT 5 Nano (10,0%) ocupa el último lugar.

En resumen, el documento concluye que los modelos de IA actuales no son lo suficientemente confiables como para confiar en flujos de trabajo autónomos y de larga duración, destaca áreas clave en las que los desarrolladores de modelos deben centrarse en el futuro y ofrece otro punto de referencia para determinar las capacidades del modelo.

a través de Registro

Logotipo de Google sobre fondo negro junto al texto

Siga TechRadar en Google News Y Agréganos como fuente preferida Recibe noticias, reseñas y opiniones de nuestros expertos en tu feed.

Enlace de origen

Deja un comentario Cancelar respuesta

Related Stories

Los monjes surcoreanos acaban de presentar un robot impulsado por inteligencia artificial e Internet no puede decidir si es inspirador o molesto.

Western Digital afirma que finalmente ha solucionado la mayor vulnerabilidad de los discos duros sin sacrificar el rendimiento del centro de datos

Spotify en panne : des milliers d’utilisateurs en Inde et dans le monde signalent « pas de connexion Internet » alors que le streaming musical est menacé d’extinction

You may have missed

La liaison d’un médecin marié avec une jeune femme glamour explose en une bataille judiciaire de style Fatal Attraction… Des poursuites pour photos classées X, des fuites d’images et une menace inquiétante : “Je n’arrêterai jamais”

Los monjes surcoreanos acaban de presentar un robot impulsado por inteligencia artificial e Internet no puede decidir si es inspirador o molesto.

Las mejores pantuflas para el invierno: 7 de los pares UGG más vendidos que traes a los compradores cada año

Charles Young, champion du Super Bowl, est mort à 75 ans : les 49ers de San Francisco pleurent la perte de leur ailier rapproché