Anoop Deoras, directeur des sciences appliquées pour l’IA des agents chez Amazon Web Services, n’est pas enclin à l’alarmisme. Mais lorsqu’on lui demande ce qui se passe lorsque des agents d’IA sont déployés en production sans protection adéquate, il n’offre aucune garantie.
“En l’absence de cela”, a-t-il déclaré, “nous pourrions voler à l’aveugle. Et cela m’inquiète moi-même.”
Ces commentaires interviennent alors qu’AWS se prépare à publier ce qui pourrait être l’enquête autocritique la plus importante émanant d’un important fournisseur de cloud cette année. Dans une étude publiée lundi, les scientifiques d’Amazon Gaurav Gupta et Vatshank Chaturvedi expliquent en détail techniquement pourquoi les agents d’IA ont une tendance persistante à se surpasser eux-mêmes et pourquoi la résolution du problème nécessite de repenser toutes les couches logicielles entre les modèles et les appareils.
publicité
publicité
Le timing est célèbre. Amazon a passé l’année dernière comme l’un des évangélistes d’entreprise les plus agressifs en faveur de l’adoption de l’IA, une poussée qui s’est heurtée à un mur lorsque des employés auraient été surpris en train d’exécuter des agents d’IA sur des tâches vides et dénuées de sens juste pour grimper dans un classement de productivité construit par des employés appelé KiroRank, selon il. Temps Financier. Amazon a fermé KiroRank le 29 mai et Amazon a déclaré fortune qu’il n’était qu’en mode bêta et n’était utilisé que par quelques employés avant sa fermeture. En général, a déclaré la société, elle mesure l’utilisation des jetons pour comprendre les modèles de coûts et l’efficacité, mais encourage l’utilisation des jetons pour mesurer la productivité des développeurs.
fortune a couvert le large effondrement de la période tokenmaxxing de la même semaine. Les chercheurs d’AWS, qui ont effectué ce travail avant la fermeture de KiroRank, affirment que la question des métriques de jeu va plus loin que le classement d’une seule entreprise.
La recherche aborde le terme benchmaxing, qui consiste à améliorer les scores de référence de l’IA non pas grâce à de meilleurs modèles, mais grâce à de meilleures configurations de serveur. Des facteurs tels que la fiabilité du backend d’inférence, la bande passante du réseau lors de l’installation du logiciel et les paramètres de politique de délai d’attente peuvent faire varier les résultats de 5 à 10 points de pourcentage, ont découvert les chercheurs, totalement indépendants de ce que le modèle sous-jacent peut faire.
“Les critères actuels sont très fragiles”, a déclaré Deoras. fortune. “Un mauvais contrôle de cette norme d’infrastructure ne vous apportera pas de gains, ou plutôt, les gains seront incorrects, car dans la production réelle, il y aura des contraintes qui devront être respectées”.
publicité
publicité
Le parallèle avec KiroRank n’est pas fortuit. Dans les deux cas (les employés du jeu symbolique sont comptés, les sociétés de configuration d’infrastructure de jeu), la métrique s’est éloignée de ce qu’elle était censée mesurer. La loi de Goodhart, selon laquelle toute mesure cesse d’être utile dès qu’elle devient un objectif, est appliquée deux fois, à deux niveaux différents de la même entreprise. Deoras, veillez cependant à distinguer le benchmaxing du tokenmaxxing.
“Token maxxing consiste simplement à brûler des jetons pour effectuer des tâches qui ne sont pas vraiment nécessaires, mais uniquement pour améliorer votre classement”, a-t-il déclaré. Le benchmarking, quant à lui, porte sur les conditions structurelles dans lesquelles l’ensemble du secteur s’évalue – et, selon les recherches, ces conditions sont systématiquement manipulées ou ignorées.
Mais une découverte plus importante de l’étude concerne ce qui se passe à l’intérieur des agents lorsqu’ils sont libérés. L’étude a identifié ce que les auteurs appellent l’écart d’exécution des intentions : une rupture de l’interface entre le modèle d’IA et le « harnais logiciel » qui exécute ses commandes. Deoras décrit le harnais comme un système d’exploitation reposant sur un modèle de langage : le “cerveau” qui se combine avec le modèle pour produire les bons résultats d’agent.
Laissé trop longtemps sans vérifier l’environnement réel, l’agent aggrave le problème. Ils forment des hypothèses internes sur l’état du système qui s’écartent discrètement de la réalité, puis émettent des commandes basées sur ces hypothèses. Plus la chaîne de pensée est longue, plus elle dérive.
publicité
publicité
Lorsqu’on lui a demandé si le harnais était l’endroit où les humains entrent dans la boucle pour empêcher les agents de s’égarer, Deoras a répondu “oui et non”. L’humain impliqué dans la boucle doit être quelqu’un qui comprend ce qui ne va pas lorsque l’agent est déployé, “et c’est le travail des scientifiques qui construisent l’agent”, a-t-il déclaré. “Mais si l’on parle d’êtres humains qui sont des consommateurs, nous ne voulons pas les exagérer.”
La solution, selon Deoras, est un bac à sable : un environnement contrôlé dans lequel les agents peuvent tester des hypothèses, échouer en toute sécurité et réussir avant de prendre des mesures qui affectent le système de production.
“Si vous n’avez pas ce bac à sable”, a-t-il déclaré, “l’agent jouera de manière conservatrice ou prendra des mesures que nous considérons comme risquées à long terme”.
L’analogie qu’il atteint est celle de l’ingénierie logicielle responsable : un environnement de développement avec un pipeline de tests de pré-production qui est toujours là pour détecter les bogues avant qu’ils n’atteignent les utilisateurs. Les agents, dit-il, ont besoin de la même infrastructure.
publicité
publicité
“Nous parlons vraiment d’un moyen sûr et sécurisé de tester les fonctionnalités avant de les promouvoir en production”, a-t-il déclaré. “C’est tout.”
C’est, dans un sens, la même leçon que KiroRank a enseignée au niveau organisationnel, désormais appliquée à la machine elle-même : sans garde-corps, le système optimise pour la mauvaise chose. La différence est que les agents aveugles en production sont plus difficiles à arrêter que les classements.
Ce qui constitue un argument plus large en faveur de la recherche est sa remise en question implicite des revendications concurrentielles des principaux fournisseurs de modèles. Ces entreprises publient des scores de référence en utilisant des harnais qui, de par leur conception, sont optimisés pour leurs propres modèles. Les recherches AWS montrent que les harnais indépendants du modèle, construits sur des principes de conception qui fonctionnent dans Claude, GPT, Gemini et Grok sans réglage spécifique au modèle, peuvent égaler ou dépasser ces scores.
« Les performances des agents ne sont pas vraiment limitées à un seul modèle de fournisseur », explique Deoras. “Cela ouvre la possibilité de créer une variété d’applications sans se limiter à un modèle particulier.”
publicité
publicité
Pour étayer cette affirmation, AWS a ouvert son framework, appelé Simple Strands Agent, qui, selon les chercheurs, a surpassé les alternatives open source populaires dans trois principaux benchmarks de l’industrie.
L’argument sous-jacent le plus profond est que l’industrie tarde à absorber. Selon l’étude, la plupart des gains de performances de l’IA à ce jour sont fragiles : les optimisations adaptées aux particularités d’une version particulière du modèle s’évaporent à mesure que le modèle s’améliore.
“À mesure que le modèle s’améliore, ce comportement change, ce qui rend les bénéfices fragiles et non coordonnés”, selon l’étude.
Ce qu’il faut, c’est un principe invariant, un choix de conception qui survit aux mises à niveau du modèle car il est intégré au harnais et non au modèle. Deoras a déclaré que la découverte invariante était celle qui l’avait le plus surpris.
publicité
publicité
“Malgré toutes les différences dans la philosophie de modélisation, il existe des propriétés invariantes communes qui relient tous ces modèles entre eux”, a-t-il déclaré. “Je ne m’y attendais pas, mais ces données sont naturellement issues de notre piste d’observation.”
Les implications pratiques sont destinées à toute organisation s’appuyant sur l’IA. L’équipe chargée de repenser l’architecture du harnais à chaque fois qu’un nouveau modèle est abandonné (et c’est ainsi que chaque organisation déploie des agents) perd son temps sur le mauvais problème.
“L’équipe est submergée par le changement de modèle et la réarchitecture chaque fois qu’il y a une mise à niveau du modèle”, a déclaré Deoras.
La vision qu’il décrit dans laquelle les agents sont dirigés n’est pas celle d’une autonomie incontrôlée, mais de quelque chose de plus réfléchi : l’humain donne la direction, l’agent exécute et le bac à sable détecte les erreurs entre les deux.
publicité
publicité
“Vous voulez qu’un être humain soit aux commandes, dirigeant le travail et lui enlevant ensuite les mains”, a-t-il déclaré. “C’est l’avenir vers lequel nous nous dirigeons.”
La question reste ouverte pour l’instant de savoir si l’industrie y est parvenue avant que le vol à l’aveugle ne s’en rende compte.
Cette histoire a été initialement présentée sur Fortune.com