Google DeepMind a annoncé son intention de se protéger de ses propres agents d’IA malveillants

Google a développé de nouveaux plans pour contrôler les agents d’IA de plus en plus performants utilisés dans sa propre organisation de recherche en IA, et la société a publié une feuille de route qu’elle appelle à aider d’autres laboratoires d’IA à lutter contre la menace potentielle des agents d’IA malveillants.

Le plan de sécurité de Google DeepMind s’éloigne de l’accent typique de la communauté de la sécurité de l’IA sur le « problème d’alignement » – l’idée de former un système d’IA afin que ses actions correspondent aux intentions, aux valeurs et à l’éthique des humains qui le contrôlent.

Tout en continuant à affirmer que l’alignement est un élément clé de la sécurité, la feuille de route de Google reconnaît que le problème de l’alignement ne sera jamais entièrement résolu et crée à la place un système de sécurité en couches qui traite les agents d’IA comme des internes malveillants potentiels au sein d’une organisation. Le rapport technique de 35 pages présente une série d’étapes et de procédures conçues pour capturer les comportements adverses potentiels des agents d’IA.

« Si la première ligne de défense – l’alignement – échoue, comment pouvons-nous réduire les dégâts ? Rohin Shah, qui dirige l’équipe de sécurité et d’alignement AGI chez Google DeepMind, a déclaré fortune dans une interview.

Le framework d’agent IA emprunte beaucoup à la cybersécurité traditionnelle, notamment à la prévention des menaces internes. “Nous avons beaucoup emprunté à la sécurité, qui traite déjà de la menace des employés internes qui peuvent être malveillants, et nous pouvons appliquer cela à un nouveau contexte”, a déclaré Shah. Mais, note-t-il, « l’IA est systématiquement différente des humains ».

D’une part, les agents IA pourraient être capables d’agir plus rapidement et à plus grande échelle que les employés malveillants ne le pourraient jamais. Il doit donc y avoir un système capable de contrôler les appareils et les données auxquels l’agent IA a accès, ainsi qu’un système capable de surveiller le comportement de l’agent IA et de détecter les modèles potentiellement déviants en temps réel.

Il existe également d’autres différences. Par exemple, de nombreux systèmes de contrôle d’accès et d’autorisation pour les travailleurs humains sont basés sur le rôle particulier d’un travailleur au sein de l’entreprise. Les administrateurs système disposent de privilèges que les réceptionnistes n’ont pas, par exemple. Certaines entreprises et même certains éditeurs de logiciels qui vendent des logiciels de « couche d’orchestration » pour les agents IA, qui incluent souvent un contrôle d’accès pour les agents IA, tentent désormais de transférer cette idée au monde des agents IA, en déclarant, par exemple, que les agents IA devraient avoir le même accès et les mêmes autorisations que les employés humains au travail.

Mais cette idée pourrait rapidement s’effondrer, a déclaré John “Four” Flynn, vice-président de la sécurité et de la confidentialité de Google DeepMind. fortune. D’une part, à mesure que les flux de travail deviennent de plus en plus automatisés, toute personne dans l’organisation avec laquelle travaille un agent peut devenir floue. D’autre part, dans un flux de travail entièrement automatisé, un seul agent IA peut effectuer des tâches liées à de nombreux rôles différents, et non à un seul. Enfin, à mesure que les systèmes d’IA deviennent plus intelligents, les organisations peuvent souhaiter que le même agent d’IA effectue des tâches sur de nombreux flux de travail et processus différents. Dans un tel environnement, les rôles statiques et même les autorisations statiques basées sur des processus et les systèmes de contrôle d’accès peuvent ne pas fonctionner correctement, a déclaré Flynn.

Au lieu de cela, ce qu’il faut, c’est un système de contrôle d’accès plus dynamique qui peut changer en temps réel en fonction de la tâche que l’agent IA tente d’accomplir à ce moment-là et de la manière dont cette tâche s’intègre dans ce flux de travail particulier. Flynn a déclaré qu’il pouvait imaginer un scénario dans lequel le même agent d’IA pourrait avoir l’autorisation d’effectuer une certaine action ou d’accéder à une base de données spécifique pour une tâche dans un flux de travail particulier, mais ne serait peut-être pas autorisé quelques minutes plus tard dans un flux de travail différent. Flynn dit que ce qu’il faut, c’est un système sophistiqué de surveillance des agents IA qui sait à quoi devrait ressembler le comportement normal de l’agent pour une tâche donnée dans n’importe quel flux de travail et tout écart par rapport à ce modèle en temps réel, coupant rapidement l’accès si le système de surveillance soupçonne que l’agent IA essaie de faire quelque chose qu’il ne devrait pas faire.

Selon un article de blog sur sa nouvelle feuille de route de sécurité des agents IA, DeepMind a construit un prototype interne qui surveille de manière asynchrone la trajectoire de codage de l’agent et transmet les découvertes suspectes à un examen humain. Le système a analysé environ 1 million de tâches d’agent de codage, a déclaré DeepMind. Ce travail, selon l’article, a joué « un rôle déterminant dans la création de moniteurs en direct pour les agents Gemini Spark », permettant à l’entreprise de répondre en temps réel à des problèmes tels que la suppression accidentelle de données.

Fondamentalement, dit DeepMind, la plupart des indicateurs du moniteur ne sont pas malveillants. La « majorité des événements signalés ne découlent pas d’une intention contradictoire », indique le billet de blog ; ils sont le plus souvent le résultat d’une « mauvaise interprétation de l’agent ou d’un empressement excessif à atteindre l’objectif de l’utilisateur ».

Cette surveillance comportementale en temps réel est l’une des 15 façons différentes de réduire le risque d’agents d’IA malveillants proposées par Google DeepMind dans sa feuille de route. D’autres incluent tout, depuis les simples journaux d’activité du réseau qui peuvent être examinés en temps réel ou audités ultérieurement jusqu’à l’utilisation de modèles d’IA moins sophistiqués mais fiables pour surveiller les « traces de raison » des agents d’IA. Une piste de raisonnement est un type de « chaîne de pensée » explicite et textuelle qu’un modèle d’IA génère lorsqu’il raisonne sur une action à entreprendre. Mais les chercheurs ont constaté que les traces de ce raisonnement ne reflètent pas toujours fidèlement ce qu’est le modèle réel de « pensée ». Ils proposent donc également de surveiller les modèles d’activation des neurones numériques à l’intérieur des grands réseaux neuronaux qui alimentent les modèles d’IA actuels afin de détecter les signes indiquant que ces modèles sont trompeurs. Google DeepMind compare cela à l’utilisation d’une IRMf du cerveau d’une personne pour essayer de lire son état émotionnel ou ses pensées en temps réel.

Dans un document technique sur la feuille de route de sécurité des agents d’IA, Google DeepMind a développé un cadre appelé TRAIT&R – une taxonomie de tactiques et de routines d’IA malveillantes – qui s’inspire étroitement de ATT&CK, une base de connaissances sur le comportement des adversaires en cybersécurité gérée par MITRE, un cabinet américain de recherche et d’ingénierie de systèmes à but non lucratif, souvent utilisé par les agences d’ingénierie fédérales. La taxonomie identifie trois catégories de menaces contre lesquelles Google DeepMind dit vouloir se défendre : la « perte de contrôle » (comme un modèle définissant un déploiement interne caché et non surveillé) ; « travail de sabotage » (comme un agent qui sape discrètement l’alignement ou la recherche sur la sécurité) ; et les « dommages immédiats » (comme l’exfiltration de modèles lourds ou la destruction d’actifs critiques).

Flynn, le vice-président de la sécurité, a déclaré dans une interview que l’entreprise avait parcouru « un long chemin » dans la mise en œuvre de sa feuille de route. “Beaucoup d’entre eux sont en bonne voie, et certains d’entre eux sont en production – la plupart concernent le contrôle d’accès, la détection et la surveillance de la chaîne de pensée. Un nombre important est en place et fonctionne”, a-t-il déclaré.

Shah affirme que le cadre est également conçu pour détecter des formes de préjudice plus subtiles. Le travail de sabotage, a-t-il noté, « peut être réalisé par la persuasion – en montrant des résultats erronés et en cachant les défauts » afin que les utilisateurs « arrivent à de mauvaises conclusions » – une catégorie que le journal reconnaît parmi les plus difficiles à détecter.

La feuille de route, que DeepMind a baptisée « v0.1 », est décrite comme un travail en cours que la société espère intégrer dans son cadre plus large de sécurité Frontier une fois qu’elle aura atteint sa maturité.

Cette histoire a été initialement présentée sur Fortune.com

Enlace de origen

Deja un comentario Cancelar respuesta

Related Stories

La historia de amor de la vida real que inspiró ‘Vote for Isabelle’ de Netflix

Un autre coup dur pour Los Angeles en difficulté alors qu’un bâtiment emblématique avec plus d’un siècle d’histoire illustre est menacé de ruine.

Toyota y Nissan advierten a los compradores japoneses sobre los problemas de calidad del Made in America

You may have missed

La historia de amor de la vida real que inspiró ‘Vote for Isabelle’ de Netflix

Un autre coup dur pour Los Angeles en difficulté alors qu’un bâtiment emblématique avec plus d’un siècle d’histoire illustre est menacé de ruine.

Toyota y Nissan advierten a los compradores japoneses sobre los problemas de calidad del Made in America

Carolyn Leavitt partage la douleur de sa petite fille qui grandit… mais risque de bouleverser le patron Trump avec des détails subtils