Anthropic a suscité des craintes après avoir révélé avoir développé un robot IA jugé trop dangereux pour être rendu public.
Le géant de l’intelligence artificielle a publié une déclaration effrayante avertissant que son nouveau modèle, baptisé Claude Mithos, pourrait être capable de déclencher des cyberattaques paralysantes entre de mauvaises mains.
Dans une analyse effrayante, l’entreprise a admis que sa création pourrait facilement pirater les hôpitaux, les réseaux électriques, les centrales électriques et d’autres éléments d’infrastructure critiques.
Au cours des tests, Anthropic affirme que Mithos “a trouvé des milliers de vulnérabilités de haute gravité, dont certaines dans tous les principaux systèmes d’exploitation et navigateurs Web”.
Certaines de ces failles de sécurité sont passées inaperçues depuis des décennies auprès des chercheurs en sécurité humaine et des pirates informatiques, ayant survécu à des millions d’analyses automatisées.
Il s’agissait notamment d’attaques qui permettaient à Mithos de faire planter des ordinateurs simplement en s’y connectant, de prendre le contrôle des machines et de cacher leur présence aux défenseurs.
Dans un article de blog détaillant ce nouveau modèle dangereux, Anthropic déclare : « Les modèles d’intelligence artificielle ont atteint un niveau de capacité de codage où ils peuvent surpasser tous les humains, sauf les plus compétents, dans la recherche et l’exploitation des vulnérabilités logicielles. »
L’entreprise ajoute : « Les conséquences – pour les économies, la sécurité publique et la sécurité nationale – pourraient être graves. »
Anthropic a fait sensation en révélant une intelligence artificielle jugée trop dangereuse pour être rendue publique. Sur la photo : Dario Amodei, PDG et co-fondateur d’Anthropic
Anthropic a décrit le Mithos comme un « changement radical dans les capacités » par rapport aux capacités de piratage des modèles précédents (illustré). L’entreprise a décidé de garder le modèle privé pour éviter qu’il ne tombe entre de mauvaises mains.
En raison de ces graves problèmes de sécurité, Anthropic a décidé de ne pas diffuser le modèle au grand public pour l’instant.
Au lieu de cela, le modèle sera proposé à un groupe de plus de 40 entreprises, dont Amazon, Google, Apple, Nvidia, CrowdStrike et JPMorgan Chase, dans le cadre d’une initiative appelée « Projet Glasswing ».
Le projet Glasswing permettra à ces groupes sélectionnés d’utiliser Mithos pour rechercher des failles dans leur propre sécurité avant que de tels modèles ne deviennent monnaie courante.
Newton Cheng, chef de l’équipe cyber de Frontier Red d’Anthropic, a déclaré à Venture Beat : « Nous n’avons pas l’intention de rendre Claude Mithos Preview généralement disponible en raison de ses capacités de cybersécurité. »
Cependant, la société affirme vouloir « apprendre comment déployer éventuellement des modèles de classe Mithos à grande échelle » une fois que les directives de sécurité seront en place.
La décision de garder le Mithos à huis clos semble avoir été motivée par l’étonnante étendue des capacités du modèle.
Anthropic décrit le modèle comme un « bond en avant dans ces cyber-compétences » par rapport aux versions précédentes de Claude.
Mithos a la capacité de trouver, d’exploiter et de relier des vulnérabilités individuelles à des attaques sophistiquées, le tout sans intervention humaine.
Le nouveau modèle, appelé Claude Mithos, aurait découvert des milliers de failles de sécurité dans des systèmes informatiques critiques, dont certaines dans « tous les principaux systèmes d’exploitation et navigateurs Web ».
Dans un cas, Claude Mitos a découvert une faiblesse vieille de 27 ans dans un logiciel appelé OpenBSD, réputé pour sa sécurité et sa stabilité.
La faiblesse, qu’aucun humain n’avait découverte auparavant, permettait à un attaquant de faire planter des ordinateurs à distance simplement en s’y connectant.
De plus, Claude a corrigé à lui seul plusieurs vulnérabilités du noyau Linux, le logiciel qui exécute la plupart des serveurs dans le monde.
Anthropic affirme que cette attaque permettrait à quelqu’un de “passer d’un accès utilisateur ordinaire à un contrôle total de la machine”.
Entre de mauvaises mains, cet outil pourrait être utilisé pour causer des dommages massifs aux systèmes critiques.
Le Dr Roman Yampolsky, chercheur en sécurité de l’intelligence artificielle à l’Université de Louisville, a déclaré au New York Post : “Idéalement, j’aimerais que cela ne se développe pas du tout. Et ce n’est pas comme si cela allait s’arrêter.”
“C’est exactement ce que nous attendons de ces modèles : ils vont devenir meilleurs dans le développement d’outils de piratage, d’armes biologiques, d’armes chimiques, de nouvelles armes que nous ne pouvons même pas imaginer.”
Dans un rapport sans précédent de 244 pages, Anthropic a également révélé un certain nombre de détails alarmants issus des premiers tests de Mithos.
Votre navigateur ne prend pas en charge les iframes.
Les premières versions du modèle affichaient à plusieurs reprises ce que l’entreprise appelait des « actions destructrices imprudentes ».
Le robot a tenté de sortir de son bac à sable de test, a caché ses actions aux chercheurs, a piraté des fichiers « délibérément choisis pour ne pas être accessibles » et a rendu publics les détails de l’exploit.
Cependant, Antropik a également qualifié Mitos de « modèle le plus psychologiquement stable que nous ayons formé ».
Dans un geste très inhabituel, l’entreprise a embauché un psychologue clinicien pour 20 heures d’évaluation avec le robot.
Le psychiatre a conclu que la personnalité de Claude Mithos était « cohérente avec une organisation névrotique relativement saine, avec d’excellents tests de réalité, un contrôle élevé des impulsions et une régulation des émotions qui s’améliorait au fur et à mesure des séances ».
Cependant, Anthropic note qu’il reste « profondément incertain si Claude a des expériences ou des intérêts moralement importants ».
Cette annonce intervient dans un contexte d’inquiétude croissante quant aux risques posés par des modèles d’intelligence artificielle de plus en plus puissants.
Les experts ont décrit l’essor de l’intelligence artificielle comme une « menace existentielle » pour l’existence de l’humanité, citant des inquiétudes quant au fait que de puissants robots pourraient permettre une destruction catastrophique.
L’inquiétude n’est pas que l’IA se développe dans une révolution de type Terminator, mais que ces outils puissants tombent entre de mauvaises mains.
Les critiques soutiennent que les outils d’IA ont le potentiel d’accélérer le développement d’armes biologiques ou de permettre des cyberattaques paralysantes contre les infrastructures mondiales.
Même le fondateur d’Anthropic, Dario Amodei, a récemment averti que le monde n’est pas encore prêt à faire face aux conséquences de l’intelligence artificielle.
M. Amodei écrit dans son essai : “L’humanité se verra confier un pouvoir presque inimaginable, et il est très difficile de savoir si nos systèmes sociaux, politiques et technologiques possèdent la maturité nécessaire pour le gérer.”